CN110321223A - Coflow协同作业流调度感知的数据流划分方法与装置 - Google Patents

Coflow协同作业流调度感知的数据流划分方法与装置 Download PDF

Info

Publication number
CN110321223A
CN110321223A CN201910594800.3A CN201910594800A CN110321223A CN 110321223 A CN110321223 A CN 110321223A CN 201910594800 A CN201910594800 A CN 201910594800A CN 110321223 A CN110321223 A CN 110321223A
Authority
CN
China
Prior art keywords
data
task
sub
ddsp
task flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910594800.3A
Other languages
English (en)
Other versions
CN110321223B (zh
Inventor
李肯立
陈建国
彭继武
胡俊艳
阳王东
李克勤
廖湘科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201910594800.3A priority Critical patent/CN110321223B/zh
Publication of CN110321223A publication Critical patent/CN110321223A/zh
Application granted granted Critical
Publication of CN110321223B publication Critical patent/CN110321223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种Coflow协同作业流调度感知的数据流划分方法、装置、计算机设备和存储介质,其中,方法包括:获取待划分的DDSP应用程序数据流,提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流,再进一步分析各子任务流的数据访问需求和数据依赖性,对所述DDSP应用程序数据流进行多维度数据分割,尽可能减少不同任务之间对数据块的交叉访问,减少数据块之间的依赖性,最后根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点,有效减少分布式计算节点之间的通信开销,提高数据块利用率和访问速度,适用于分布式数据流处理。

Description

Coflow协同作业流调度感知的数据流划分方法与装置
技术领域
本申请涉及信息技术领域,特别是涉及一种Coflow协同作业流调度感知的数据流划分方法、装置、计算机设备和存储介质。
背景技术
随着互联网、传感器网络和移动互联网技术的快速发展,各个应用领域不断以流式的形式持续生成大量数据集。流式计算是一种高度实时的计算模型,也是大数据计算的有效方式,例如金融市场、网络监控、电信和传感器网络等实际应用领域都产生并存储海量流式数据集。DDSP(Distributed Data Stream Processing,分布式数据流处理)是一种提高大规模数据流处理性能的有效方法。
但是,目前在DDSP应用中面临着几个关键挑战:包括数据通信、任务完成时间、工作负载平衡和任务同步等。作为DDSP的前期工作,高质量的数据流划分解决方案对于解决大规模DDSP应用中的上述挑战至关重要。因此,为大规模DDSP应用提出有效的数据流分区方法至关重要。许多现有研究工作致力于从不同角度提出相应的数据划分方法,例如水平划分,垂直划分,数据装箱和增强,基于图形的划分和基于特征的划分等方法。相比之下,很少有人专注于数据流划分,目前数据流划分方法通常根据数据块大小或时间长度进行简单划分。
但是,分布式数据流处理应用与传统静态数据处理不同,通常涉及在分布式机器上执行的并行任务流的集合,其中任务流之间存在不同的逻辑依赖和数据依赖关系,简单按照传统静态数据处理方式对应的数据流划分对分布式数据流进行数据流划分处理显然是不合理的。
发明内容
基于此,有必要针对上述技术问题,提供一种适用于分布式数据流处理的Coflow协同作业流调度感知的数据流划分方法、装置、计算机设备和存储介质。
一种Coflow协同作业流调度感知的数据流划分方法,所述方法包括:
获取待划分的DDSP应用程序数据流;
提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流;
分析各子任务流的数据访问需求和数据依赖性,对所述DDSP应用程序数据流进行多维度数据分割,得到数据块;
将各所述子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点。
在其中一个实例中,所述根据所述识别结果,通过预设Coflow协同作业流调度模型,将所述待划分的DDSP应用程序数据流Coflow协同作业流调度感知的数据流划分为多个子任务流之前,还包括:
将DDSP应用程序部署于分布式并行计算集群环境中,所述分布式并行计算集群环境包括多个分布式计算节点;
获取DDSP应用程序执行分布式并行计算任务的流式数据;
根据DDSP应用中高吞吐量、各分布式节点中子任务流之间的数据通信和工作负载均衡情况,构建Coflow协同作业流调度模型。
在其中一个实例中,所述分析各子任务流的数据访问需求和数据依赖性,对所述DDSP应用程序数据流进行多维度数据分割,得到数据块包括:
分别评估各子任务流中每个任务的数据访问需求和数据依赖性;
根据所述数据访问需求和所述数据依赖性进行面向各子任务流整体的数据分割;
识别所述DDSP应用程序数据流的数据维度;
根据所述数据维度对整体分割后的数据块进行再次分割,得到数据块。
在其中一个实例中,所述根据所述数据访问需求和所述数据依赖性进行面向各子任务流整体的数据分割包括:
当根据所述数据访问需求和数据依赖性,识别出当前子任务流中有多个任务要求访问同一个数据块的全部或部分内容时,则将所述多个任务访问的公共数据区定义为所述同一个数据块面向所述当前子任务流的数据索引范围;
根据所述数据索引范围,将所述同一个数据块中所述公共数据区分割出,并将分割出的数据块分配至所述当前子任务流。
在其中一个实例中,所述根据所述数据维度对整体分割后的数据块进行再次分割,得到数据块包括:
获取各个所述数据维度对应的数据访问需求,根据所述数据维度对应的数据访问需求对整体分割后的数据块进行再次分割,得到数据块。
在其中一个实例中,所述将各所述子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点包括:
将各所述子任务流中的计算任务分配至分布式计算集群中的计算节点;
根据任务与数据块之间的访问需求,以计算节点之间数据通信最小化为目标,将分割后的数据块分配到最频繁访问的计算任务所在计算节点;
当某个数据块被多个计算节点所使用时,将该数据块复制多份,并分别分配至所述多个计算节点。
一种Coflow协同作业流调度感知的数据流划分装置,所述装置包括:
识别模块,用于获取待划分的DDSP应用程序数据流;
划分模块,用于提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流;
多维度数据分割模块,用于分析各子任务流的数据访问需求和数据依赖性,对所述DDSP应用程序数据流进行多维度数据分割,得到数据块;
数据块分配模块,用于将各所述子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点。
在其中一个实例中,上述还Coflow协同作业流调度感知的数据流划分装置包括:
模型构建模块,用于将DDSP应用程序部署于分布式并行计算集群环境中,所述分布式并行计算集群环境包括多个分布式计算节点;获取DDSP应用程序执行分布式并行计算任务的流式数据;根据DDSP应用中高吞吐量、各分布式节点中子任务流之间的数据通信和工作负载均衡情况,构建Coflow协同作业流调度模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的方法的步骤。
上述Coflow协同作业流调度感知的数据流划分方法、装置、计算机设备和存储介质,获取待划分的DDSP应用程序数据流,提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流,再进一步分析各子任务流的数据访问需求和数据依赖性,对所述DDSP应用程序数据流进行多维度数据分割,尽可能减少不同任务之间对数据块的交叉访问,减少数据块之间的依赖性,最后根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点,有效减少分布式计算节点之间的通信开销,提高数据块利用率和访问速度,适用于分布式数据流处理。
附图说明
图1为一个实施例中Coflow协同作业流调度感知的数据流划分方法的应用环境图;
图2为一个实施例中Coflow协同作业流调度感知的数据流划分方法的流程示意图;
图3为Coflow协同作业流调度模型机构示意图;
图4为另一个实施例中Coflow协同作业流调度感知的数据流划分方法的流程示意图;
图5为Coflow协同作业流的数据流分割模型;
图6为一个分布式数据流处理应用程序的数据流分割及Coflow协同作业流调度示意图;
图7为一个实施例中Coflow协同作业流调度感知的数据流划分装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的Coflow协同作业流调度感知的数据流划分方法,可以应用于如图1所示的应用环境中。其中,外部将待划分的DDSP应用程序数据流发送至服务器,服务器获取待划分的DDSP应用程序数据流,通过预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流;分析各子任务流的数据访问需求和数据依赖性,对DDSP应用程序数据流进行多维度数据分割,得到数据块;将各子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点。
在一个实施例中,如图2所示,提供了一种Coflow协同作业流调度感知的数据流划分方法,包括以下步骤:
S200:获取待划分的DDSP应用程序数据流。
待划分的DDSP应用程序数据流可以是外部直接导入的数据,还是可以是终端发送至服务器的任务数据。
S400:提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流。
DDSP应用程序的复杂计算任务流可以从待划分的DDSP应用程序数据流中提取。具体来说,有很多复杂的计算是需要许多任务组成的,这些任务就组成任务流。例如,天气预测任务可以进一步由许多小任务组成,包括接收历史气象数据、缺失数据填充、异常数据修正、计算每天最高温、计算每天最低温等等的一系列小任务。这些具有前后依赖关系的任务就称为一个任务流。复杂的系统一般会有许多任务流组成,一般用任务有向无环图DAG图表示。如图3(a)中就包含有t1-t17共计17个任务。Coflow协同作业流调度模型是基于Coflow感知数据流中任务之间的逻辑依赖关系和数据依赖关系预先构建的模型。具体来说,其充分考虑分布式流式数据处理应用的高吞吐量、各分布式节点中子任务流之间的的数据通信和工作负载均衡等因素,其主要包括吞吐模型、数据通信模型以及工作负载均衡模型3大块。
S600:分析各子任务流的数据访问需求和数据依赖性,对DDSP应用程序数据流进行多维度数据分割,得到数据块。
在DDSP应用程序数据流中包含的数据流是多维度的,可以将一定时间窗口内截取的数据作为一个大的数据块,在该大的数据块中包含有多个维度的数据。具体来说,以气象数据处理应用为例,全国各地的气象数据通过部署在名地的传感器采集得到,并持续传送到数据库或者下一步的数据流处理程序中,数据块是多维的,即多行*多列,如下表所示,数据的行表示时间戳,数据的列表示各种属性,例如温度、湿度、风力、位置等。数据块分割策略面向整个Coflow感知数据流中各子任务流而不是单个任务,数据块分割是在多维流式数据的各个维度进行,而不仅仅根据时间长度或者数据块大小;数据块分割是在评估整个任务流中各子任务对数据流各个维度的数据访问需求来分割,实现分割后的数据块之间依赖性最小化。
S800:将各子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点。
先确定Coflow任务流分配方案,即确定好将哪些计算任务分配到哪一台计算机中。然后再确定数据分配方案,尽量让计算任务和相关的数据块放在同一计算机中,使得在计算过程中避免这些任务去访问其他计算机上的数据。根据各个分布式计算节点中的子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块划分分配到最合适的计算节点。
上述Coflow协同作业流调度感知的数据流划分方法,获取待划分的DDSP应用程序数据流,通过预设Coflow协同作业流调度模型,将待划分的DDSP应用程序数据流Coflow协同作业流调度感知的数据流划分为多个子任务流,再进一步分析各子任务流的数据访问需求和数据依赖性,对各子任务流进行多维度数据分割,尽可能减少不同任务之间对数据块的交叉访问,减少数据块之间的依赖性,最后根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点,有效减少分布式计算节点之间的通信开销,提高数据块利用率和访问速度,适用于分布式数据流处理。
在其中一个实例中,根据识别结果,通过预设Coflow协同作业流调度模型,将待划分的DDSP应用程序数据流划分为多个子任务流之前,还包括:将DDSP应用程序部署于分布式并行计算集群环境中,分布式并行计算集群环境包括多个分布式计算节点;获取DDSP应用程序执行分布式并行计算任务的流式数据;根据DDSP应用中高吞吐量、各分布式节点中子任务流之间的数据通信和工作负载均衡情况,构建Coflow协同作业流调度模型。
不同于传统的数据处理系统,分布式数据流处理应用程序部署于分布式并行计算环境中,通过执行分布式并行计算任务,对输入数据流进行持续分析和处理,并将处理结果以流式方式输出。分布式数据流应用的主要组件包括输入数据流、分布式计算集群、以及分布式计算模型。
1、输入数据流:DDSP应用程序拥有一个或多个输入数据源,每个数据源可能以不同的频率产生不同大小的流式数据。假设DS={DS1,DS2,…,DSN}是来自N个数据源的输入数据流,其中DSi={DSi1…}是来自第i个数据源的数据流,其到达频率为dfi,|DSi|表示每次到达的数据块的大小。
2、分布式计算集群:需要构建一个分布式计算集群以部署DDSP应用程序以及并行执行计算任务。该计算集群由多个同构或异构的分布式计算节点组成,分别表示为C={C1,C2,…,CN}这些计算节点通过搞宽带网络互联。UCm表示为第m个节点Cm的CPU计算能力。
3、分布式计算模型:在DDSP应用程序中,数据流处理程序被分解为一系列计算任务,其中一部分计算任务可以进一步分解为更多更细的子任务。基于这些子任务之间可能存在逻辑和数据依赖关系,将DDSP计算模型建模为任务有向无环图DAG,G=(V,E,W),其中V=(V1,…,Vn)表示一组计算任务,每个边eij∈E(i,j∈[1,n])表示从任务vi到vj的逻辑依赖关系,W=(W1,…,Wn)是任务的计算复杂性的集合。
针对大规模分布式流式数据处理应用的分布式并行计算需求,设计一种Coflow协同作业流调度模型,充分考虑分布式流式数据处理应用的高吞吐量、各分布式节点中子任务流之间的数据通信和工作负载均衡等因素。该模型主要包括以下三个组成部分:
1)吞吐量模型:DDSP应用程序的高吞吐量是Coflow调度的性能目标,因此,数据流划分解决方案的优化目标也是通过减少分布式计算节点之间的各个计算任务的数据通信开销来提升Coflow调度的性能。DDSP应用程序的吞吐量取决于计算或传输数据集的速度。基于Coflow协同作业流调度模型,将DDSP应用程序的吞吐量TP定义为:
其中Γ表示Coflow所有任务的整体完成时间,表示第k个Coflow子任务流fk的完成时间,该完成时间是由所有串行任务的总执行时间与所有并行任务的总执行时间相加得到。假设在子任务流fk中有h个计算任务必须串行执行,剩余的(|fk|-h)个任务可以并行执行,那么的计算公式如下:
其中,|fk|表示fk子任务流中的任务数量,分别表示每个串行任务和并行任务的完成时间。
2)数据通信模型:基于任务DAG和Coflow调度模型,分析DDSP应用程序中各个计算任务之间的逻辑关系和数据依赖关系。通过计算任务之间的逻辑关系和数据依赖性来确定相应的数据块之间的数据通信模式和通信频率。对于任务流中的两个相邻任务,上游任务访问的数据集称为父级数据集,下游任务访问的数据集称为子级数据集。给定Coflow调度模型F(G,C)={f1,…,fk}由K个Coflow子任务流和n个计算任务组成,它们具有明确的逻辑关系和数据依赖关系。假设为针对fk子任务流分割得到的数据块,将表示为fk中的任务数据块之间的数据通信成本,定义如下:
其中,是数据块的大小,X(·)是一个0或1整数函数,表示任务tk,j和数据块是否存在数据通信开销。如果任务tk,j和数据块位于同一台机器上,那么它们之间即使有数据访问操作,也没不存在计算节点之间的数据通信开销,则反之,如果,任务tk,j和数据块位于不同计算节点中但存在数据访问操作,则它们之间存在数据通信开销,
3)工作负载均衡模型:整个分布式计算集群C的工作负载均衡也是Coflow调度模型需要考虑的一个重要因素,可以通过合理的数据分区和数据分配策略来实现工作负载均衡的优化。在此,将计算集群中各个计算节点的CPU使用率的均衡情况作为整个集群的工作负载均衡的度量标准。假设从不同的Coflow子任务流分配了Nm个任务到计算节点Cm,则Cm的CPU使用率定义为:
其中URm(ti)表示执行任务ti期间计算节点Cm的CPU使用率,UCm是cm的CPU计算能力,是cm的最大可用CPU计算能力,wi是每个任务ti的计算复杂度,即计算工作量。因此,整个计算群集的工作负载均衡程序WB定义如下:
其中M是计算集群C中的节点数量,是这些机器的CPU使用率的平均值。
分布式数据流处理应用的Coflow协同作业流调度模型见图3。如图3(a)所示,在给定的DDSP应用程序中有三组输入数据流和两组输出流。任务DAG构建有17个计算任务,这些任务之间存在逻辑和数据依赖关系。基于任务DAG,我们创建了一个Coflow调度模型,如图3(b)所示。17个计算任务根据它们的依赖性分为4个coflows(f1,f2,f3,f4)。
如图4所示,在其中一个实例中,步骤S600包括:
S620:分别评估各子任务流中每个任务的数据访问需求和数据依赖性。
S640:根据数据访问需求和数据依赖性进行面向各子任务流整体的数据分割。
S660:识别DDSP应用程序数据流的数据维度。
S680:根据数据维度对整体分割后的数据块进行再次分割,得到数据块。
对任务流进行分割得到数据块主要包括面向Coflow子任务流整体的数据分割以及多维度数据块分割。数据块分割策略面向整个Coflow任务流而不是单个任务;数据块分割是在多维流式数据的各个维度进行,而不仅仅根据时间长度或者数据块大小;数据块分割是在评估整个DDSP应用程序数据流中各个任务对数据流各个维度的数据访问需求来分割,实现分割后的数据块之间依赖性最小化。
在其中一个实例中,根据数据访问需求和数据依赖性进行面向各子任务流整体的数据分割包括:当根据数据访问需求和数据依赖性,识别出当前子任务流中有多个任务要求访问同一个数据块的全部或部分内容时,则将多个任务访问的公共数据区定义为同一个数据块面向当前子任务流的数据索引范围;根据数据索引范围,将同一个数据块中公共数据区分割出,并将分割出的数据块分配至当前子任务流。
面向Coflow子任务流整体的数据分割:对于Coflow子任务流fk中的每个任务tk,j,需要评估每个计算任务的数据访问要求和数据依赖性。需要分任务流中所有任务的数据访问需求,而不仅仅是任何单个任务。对于当前任务流fk,如果有多个任务要求访问同一个数据块Xi的全部或部分内容,那么,可以将它们需求访问的公共数据区域定义为Xi面向fk的数据索引范围:
其中∪是一个并集操作符,即,Xi面向任务流fk的数据分割索引是每个任务tk,j访问索引的并集。因此,基于的索引范围从中将数据块分割出来并分配给任务流fk。面向整个Coflow协同作业流的数据流分割模型见图5。
在其中一个实例中,根据数据维度对整体分割后的数据块进行再次分割,得到数据块包括:获取各个数据维度对应的数据访问需求,根据数据维度对应的数据访问需求对整体分割后的数据块进行再次分割,得到数据块。
多维度数据块分割:考虑到DDSP应用程序数据流具有多个维度,因此不能简单的根据时间长度或者数据大小进行分割,而是需要分割每个维度上的数据访问需求。假设Xi包含m个维度,对于任务tk,j每个维度的数据访问索引的计算方法定义如下:
其中Ism和Iem分别是Xi中第m维的起点和终点索引。在特定的DDSP应用程序中,每个任务的数据访问需求实际上取决于应用程序的编程模型。要获取任务的数据访问要求信息,程序开发人员应在相应函数中为每个任务定义每个维度的访问范围。
如图4所示,在其中一个实例中,步骤S800:
S820:将各子任务流中的计算任务分配至分布式计算集群中的计算节点。
S840:根据任务与数据块之间的访问需求,以计算节点之间数据通信最小化为目标,将分割后的数据块分配到最频繁访问的计算任务所在计算节点。
S860:当某个数据块被多个计算节点所使用时,将该数据块复制多份,并分别分配至多个计算节点。
先将每个coflow子任务流中的计算任务分配给分布式计算集群中合适的节点。这些任务在集群中的位置直接影响了集群的工作负载均衡和数据块分配情况,也进一步影响了后续计算过程中的数据通信开销。给定一个Coflow调度方案F={f1,…,fk},对于任务流fk中的每个任务tk,j,设wk,j∈W是tk,j的计算复杂度。考虑到分布式计算集群可能是由异构计算节点组成,每个节点的计算能力可能不同。假设UCm和URm分别是第m台计算节点Cm的CPU计算能力和当前CPU使用率,表示当Cm负责执行任务tk,j时的CPU使用率,因此可以计算每个任务tk,j对计算节点Cm的CPU使用率的影响程度:
其中εWB是计算集群的CPU使用率工作负载均衡的预定阈值,即以上操作用于决定将任务务tk,j分配给影响最小的节点。
数据分配和复制:将计算任务分配给分布式集群之后,根据前述的任务与数据块之间的访问需求,以计算节点之间数据通信最小化为目标,将分割后的数据块分配到最频繁访问的计算任务所在节点上。假设任务流fk中的任务已经分配到节点Cm中,对于面向任务流fk而分割得到的数据块在数据分配之前需要计算数据访问产生的通信成本:
其中,cμ表示为任意两台机器之间的访问单位数据块的通信开销,ak,j表示任务tk,j对数据块的访问次数,是数据块的大小。通过这种方式,可以计算每个任务流对该数据块的数据通信成本。并将数据块分配给最大数据通信成本所在的机器,这样就可以直接消除将该通信成本。此外,如果存在多个计算机上的任务同时频繁访问数据分区,无论数据块被分配到哪台机器上,其他机器与该数据块之间还是会会产生大量通信开销。在这种情况下,采用一种数据复制策略,即该数据块被复制多份并同时分配给这些机器。对于数据块如果计算节点Cm上的任务的数据访问通信成本满足:
则需要将分配给节点Cm。∈是数据分配的阈值,cμ表示两台机器之间的数据传输单位成本,上式表示如果的通信成本大于传输成本,则优先分配的副本到机器Cm
整体来说,本申请Coflow协同作业流调度感知的数据流划分方法,将Coflow协同作业流调度模型和大规模流式数据动态分割和分配方法结合,为分布式流式数据处理应用提供高质量的数据流划分解决方案,提供整个数据处理应用的吞吐量、解决分布式计算节点的数据通信和工作负载均衡问题。图6给出一个分布式数据流处理应用程序的数据流分割及Coflow协同作业流调度案例。
应该理解的是,虽然图2与图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2与图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行
另外,如图7所示,一种Coflow协同作业流调度感知的数据流划分装置,装置包括:
识别模块200,用于获取待划分的DDSP应用程序数据流;
划分模块400,用于提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流;
多维度数据分割模块600,用于分析各子任务流的数据访问需求和数据依赖性,对DDSP应用程序数据流进行多维度数据分割,得到数据块;
数据块分配模块800,用于将各子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点。
上述Coflow协同作业流调度感知的数据流划分装置,获取待划分的DDSP应用程序数据流,通过预设Coflow协同作业流调度模型,将待划分的DDSP应用程序数据流Coflow协同作业流调度感知的数据流划分为多个子任务流,再进一步分析各子任务流的数据访问需求和数据依赖性,对各子任务流进行多维度数据分割,尽可能减少不同任务之间对数据块的交叉访问,减少数据块之间的依赖性,最后根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点,有效减少分布式计算节点之间的通信开销,提高数据块利用率和访问速度,适用于分布式数据流处理。
在其中一个实例中,上述Coflow协同作业流调度感知的数据流划分装置还包括:
模型构建模块,用于将DDSP应用程序部署于分布式并行计算集群环境中,分布式并行计算集群环境包括多个分布式计算节点;获取DDSP应用程序执行分布式并行计算任务的流式数据;根据DDSP应用中高吞吐量、各分布式节点中子任务流之间的数据通信和工作负载均衡情况,构建Coflow协同作业流调度模型。
在其中一个实例中,多维度数据分割模块600还用于分别评估各子任务流中每个任务的数据访问需求和数据依赖性;根据数据访问需求和数据依赖性进行面向各子任务流整体的数据分割;识别DDSP应用程序数据流的数据维度;根据数据维度对整体分割后的数据块进行再次分割,得到数据块。
在其中一个实例中,多维度数据分割模块600还用于当根据数据访问需求和数据依赖性,识别出当前子任务流中有多个任务要求访问同一个数据块的全部或部分内容时,则将多个任务访问的公共数据区定义为同一个数据块面向当前子任务流的数据索引范围;根据数据索引范围,将同一个数据块中公共数据区分割出,并将分割出的数据块分配至当前子任务流。
多维度数据分割模块600还用于获取各个数据维度对应的数据访问需求,根据数据维度对应的数据访问需求对整体分割后的数据块进行再次分割,得到数据块。
在其中一个实例中,数据块分配模块800还用于将各子任务流中的计算任务分配至分布式计算集群中的计算节点;
根据任务与数据块之间的访问需求,以计算节点之间数据通信最小化为目标,将分割后的数据块分配到最频繁访问的计算任务所在计算节点;当某个数据块被多个计算节点所使用时,将该数据块复制多份,并分别分配至多个计算节点。
关于Coflow协同作业流调度感知的数据流划分装置的具体限定可以参见上文中对于Coflow协同作业流调度感知的数据流划分方法的限定,在此不再赘述。上述Coflow协同作业流调度感知的数据流划分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预先构建的模型以及历史Coflow感知数据流等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种Coflow协同作业流调度感知的数据流划分方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待划分的DDSP应用程序数据流;
提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流;
分析各子任务流的数据访问需求和数据依赖性,对DDSP应用程序数据流进行多维度数据分割,得到数据块;
将各子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将DDSP应用程序部署于分布式并行计算集群环境中,分布式并行计算集群环境包括多个分布式计算节点;获取DDSP应用程序执行分布式并行计算任务的流式数据;根据DDSP应用中高吞吐量、各分布式节点中子任务流之间的数据通信和工作负载均衡情况,构建Coflow协同作业流调度模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
分别评估各子任务流中每个任务的数据访问需求和数据依赖性;根据数据访问需求和数据依赖性进行面向各子任务流整体的数据分割;识别待划分的DDSP应用程序数据流的数据维度;根据数据维度对整体分割后的数据块进行再次分割,得到数据块。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
当根据数据访问需求和数据依赖性,识别出当前子任务流中有多个任务要求访问同一个数据块的全部或部分内容时,则将多个任务访问的公共数据区定义为同一个数据块面向当前子任务流的数据索引范围;根据数据索引范围,将同一个数据块中公共数据区分割出,并将分割出的数据块分配至当前子任务流。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取各个数据维度对应的数据访问需求,根据数据维度对应的数据访问需求对整体分割后的数据块进行再次分割,得到数据块。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将各子任务流中的计算任务分配至分布式计算集群中的计算节点;根据任务与数据块之间的访问需求,以计算节点之间数据通信最小化为目标,将分割后的数据块分配到最频繁访问的计算任务所在计算节点;当某个数据块被多个计算节点所使用时,将该数据块复制多份,并分别分配至多个计算节点。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待划分的DDSP应用程序数据流;
提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流;
分析各子任务流的数据访问需求和数据依赖性,对DDSP应用程序数据流进行多维度数据分割,得到数据块;
将各子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将DDSP应用程序部署于分布式并行计算集群环境中,分布式并行计算集群环境包括多个分布式计算节点;获取DDSP应用程序执行分布式并行计算任务的流式数据;根据DDSP应用中高吞吐量、各分布式节点中子任务流之间的数据通信和工作负载均衡情况,构建Coflow协同作业流调度模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
分别评估各子任务流中每个任务的数据访问需求和数据依赖性;根据数据访问需求和数据依赖性进行面向各子任务流整体的数据分割;识别待划分的DDSP应用程序数据流的数据维度;根据数据维度对整体分割后的数据块进行再次分割,得到数据块。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
当根据数据访问需求和数据依赖性,识别出当前子任务流中有多个任务要求访问同一个数据块的全部或部分内容时,则将多个任务访问的公共数据区定义为同一个数据块面向当前子任务流的数据索引范围;根据数据索引范围,将同一个数据块中公共数据区分割出,并将分割出的数据块分配至当前子任务流。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取各个数据维度对应的数据访问需求,根据数据维度对应的数据访问需求对整体分割后的数据块进行再次分割,得到数据块。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将各子任务流中的计算任务分配至分布式计算集群中的计算节点;根据任务与数据块之间的访问需求,以计算节点之间数据通信最小化为目标,将分割后的数据块分配到最频繁访问的计算任务所在计算节点;当某个数据块被多个计算节点所使用时,将该数据块复制多份,并分别分配至多个计算节点。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种Coflow协同作业流调度感知的数据流划分方法,所述方法包括:
获取待划分的DDSP应用程序数据流;
提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流;
分析各子任务流的数据访问需求和数据依赖性,对所述DDSP应用程序数据流进行多维度数据分割,得到数据块;
将各所述子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点。
2.根据权利要求1所述的方法,其特征在于,所述提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流之前,还包括:
将DDSP应用程序部署于分布式并行计算集群环境中,所述分布式并行计算集群环境包括多个分布式计算节点;
获取DDSP应用程序执行分布式并行计算任务的流式数据;
根据DDSP应用中高吞吐量、各分布式节点中子任务流之间的数据通信和工作负载均衡情况,构建Coflow协同作业流调度模型。
3.根据权利要求1所述的方法,其特征在于,所述分析各子任务流的数据访问需求和数据依赖性,对所述DDSP应用程序数据流进行多维度数据分割,得到数据块包括:
分别评估各子任务流中每个任务的数据访问需求和数据依赖性;
根据所述数据访问需求和所述数据依赖性进行面向各子任务流整体的数据分割;
识别所述DDSP应用程序数据流的数据维度;
根据所述数据维度对整体分割后的数据块进行再次分割,得到数据块。
4.根据权利要求3所述的方法,其特征在于,所述根据所述数据访问需求和所述数据依赖性进行面向各子任务流整体的数据分割包括:
当根据所述数据访问需求和数据依赖性,识别出当前子任务流中有多个任务要求访问同一个数据块的全部或部分内容时,则将所述多个任务访问的公共数据区定义为所述同一个数据块面向所述当前子任务流的数据索引范围;
根据所述数据索引范围,将所述同一个数据块中所述公共数据区分割出,并将分割出的数据块分配至所述当前子任务流。
5.根据权利要求3所述的方法,其特征在于,所述根据所述数据维度对整体分割后的数据块进行再次分割,得到数据块包括:
获取各个所述数据维度对应的数据访问需求,根据所述数据维度对应的数据访问需求对整体分割后的数据块进行再次分割,得到数据块。
6.根据权利要求1所述的方法,其特征在于,所述将各所述子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点包括:
将各所述子任务流中的计算任务分配至分布式计算集群中的计算节点;
根据任务与数据块之间的访问需求,以计算节点之间数据通信最小化为目标,将分割后的数据块分配到最频繁访问的计算任务所在计算节点;
当某个数据块被多个计算节点所使用时,将该数据块复制多份,并分别分配至所述多个计算节点。
7.一种Coflow协同作业流调度感知的数据流划分装置,其特征在于,所述装置包括:
识别模块,用于获取待划分的DDSP应用程序数据流;
划分模块,用于提取DDSP应用程序的复杂计算任务流,根据预设Coflow协同作业流调度模型,将DDSP应用程序中复杂计算任务流划分为多个子任务流;
多维度数据分割模块,用于分析各子任务流的数据访问需求和数据依赖性,对所述DDSP应用程序数据流进行多维度数据分割,得到数据块;
数据块分配模块,用于将各所述子任务流中的计算任务分配至分布式计算集群中的计算节点,并根据各计算节点中子任务流的数据访问需求,以计算节点之间数据通信最小化和计算节点工作负载均衡化为优化目标,将分割后的数据块分配到最合适的计算节点。
8.根据权利要求7所述的装置,其特征在于,还包括:
模型构建模块,用于将DDSP应用程序部署于分布式并行计算集群环境中,所述分布式并行计算集群环境包括多个分布式计算节点;获取DDSP应用程序执行分布式并行计算任务的流式数据;根据DDSP应用中高吞吐量、各分布式节点中子任务流之间的数据通信和工作负载均衡情况,构建Coflow协同作业流调度模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910594800.3A 2019-07-03 2019-07-03 Coflow协同作业流调度感知的数据流划分方法与装置 Active CN110321223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910594800.3A CN110321223B (zh) 2019-07-03 2019-07-03 Coflow协同作业流调度感知的数据流划分方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910594800.3A CN110321223B (zh) 2019-07-03 2019-07-03 Coflow协同作业流调度感知的数据流划分方法与装置

Publications (2)

Publication Number Publication Date
CN110321223A true CN110321223A (zh) 2019-10-11
CN110321223B CN110321223B (zh) 2021-08-17

Family

ID=68122408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910594800.3A Active CN110321223B (zh) 2019-07-03 2019-07-03 Coflow协同作业流调度感知的数据流划分方法与装置

Country Status (1)

Country Link
CN (1) CN110321223B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929884A (zh) * 2019-11-22 2020-03-27 北京大学 一种基于列划分的分布式机器学习优化的分类方法及装置
CN111190703A (zh) * 2019-12-11 2020-05-22 平安医疗健康管理股份有限公司 实时数据处理方法、装置、计算机设备和存储介质
CN111966513A (zh) * 2020-08-31 2020-11-20 国网上海市电力公司 无先验知识Coflow的多级队列调度方法、装置及其调度设备
CN112130812A (zh) * 2020-08-04 2020-12-25 中科天玑数据科技股份有限公司 一种基于数据流混合编排的分析模型构建方法及系统
CN112905351A (zh) * 2021-03-24 2021-06-04 广州海格星航信息科技有限公司 一种gpu和cpu负载调度方法、装置、设备和介质
CN113190358A (zh) * 2021-05-25 2021-07-30 曙光信息产业(北京)有限公司 作业分配方法、装置、电子设备及可读存储介质
CN113268505A (zh) * 2021-04-29 2021-08-17 广东海洋大学 一种多源多模态海洋大数据的离线批处理方法及系统
CN113986514A (zh) * 2021-12-24 2022-01-28 飞狐信息技术(天津)有限公司 基于数据库部署的任务流控制方法和装置
CN114579183A (zh) * 2022-04-29 2022-06-03 之江实验室 一种用于分布式计算的作业分解处理方法
CN115408122A (zh) * 2022-08-01 2022-11-29 无锡雪浪数制科技有限公司 一种去中心化的分布式并行计算框架及计算方法
CN116737349A (zh) * 2023-08-16 2023-09-12 中国移动紫金(江苏)创新研究院有限公司 流式数据处理方法、系统及存储介质
US11907693B2 (en) 2022-04-29 2024-02-20 Zhejiang Lab Job decomposition processing method for distributed computing
WO2024046130A1 (zh) * 2022-08-31 2024-03-07 中兴通讯股份有限公司 任务处理方法、电子设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030206313A1 (en) * 2002-05-06 2003-11-06 Ferlitsch Andrew Rodney Peer-to-peer, plural-computing-device rendering/rasterizing structure and methodology for grid-distrubuted printing
CN102722355A (zh) * 2012-06-04 2012-10-10 南京中兴软创科技股份有限公司 基于工作流机制的并发式etl转换方法
CN107329828A (zh) * 2017-06-26 2017-11-07 华中科技大学 一种面向cpu/gpu异构集群的数据流编程方法和系统
CN108629016A (zh) * 2018-05-08 2018-10-09 成都信息工程大学 支持实时流计算面向大数据数据库控制系统、计算机程序
US20180375781A1 (en) * 2016-03-11 2018-12-27 Huawei Technologies Co.,Ltd. Coflow identification method and system, and server using method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030206313A1 (en) * 2002-05-06 2003-11-06 Ferlitsch Andrew Rodney Peer-to-peer, plural-computing-device rendering/rasterizing structure and methodology for grid-distrubuted printing
CN102722355A (zh) * 2012-06-04 2012-10-10 南京中兴软创科技股份有限公司 基于工作流机制的并发式etl转换方法
US20180375781A1 (en) * 2016-03-11 2018-12-27 Huawei Technologies Co.,Ltd. Coflow identification method and system, and server using method
CN107329828A (zh) * 2017-06-26 2017-11-07 华中科技大学 一种面向cpu/gpu异构集群的数据流编程方法和系统
CN108629016A (zh) * 2018-05-08 2018-10-09 成都信息工程大学 支持实时流计算面向大数据数据库控制系统、计算机程序

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AHMAD SALAH 等: "A data decomposition middleware tool with a generic built-in work-flow", 《EUROMPI "13: PROCEEDINGS OF THE 20TH EUROPEAN MPI USERS" GROUP MEETING》 *
SHENG ZHANG 等: "Efficient Data Center Flow Scheduling Without Starvation Using Expansion Ratio", 《IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS》 *
周峥: "基于集群计算环境的核外计算中间件关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *
张译天 等: "大数据流式计算框架Heron环境下的流分类任务调度策略", 《计算机应用》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929884A (zh) * 2019-11-22 2020-03-27 北京大学 一种基于列划分的分布式机器学习优化的分类方法及装置
CN111190703B (zh) * 2019-12-11 2023-02-07 深圳平安医疗健康科技服务有限公司 实时数据处理方法、装置、计算机设备和存储介质
CN111190703A (zh) * 2019-12-11 2020-05-22 平安医疗健康管理股份有限公司 实时数据处理方法、装置、计算机设备和存储介质
CN112130812A (zh) * 2020-08-04 2020-12-25 中科天玑数据科技股份有限公司 一种基于数据流混合编排的分析模型构建方法及系统
CN111966513A (zh) * 2020-08-31 2020-11-20 国网上海市电力公司 无先验知识Coflow的多级队列调度方法、装置及其调度设备
CN112905351A (zh) * 2021-03-24 2021-06-04 广州海格星航信息科技有限公司 一种gpu和cpu负载调度方法、装置、设备和介质
CN112905351B (zh) * 2021-03-24 2024-04-19 广州海格星航信息科技有限公司 一种gpu和cpu负载调度方法、装置、设备和介质
CN113268505B (zh) * 2021-04-29 2021-11-30 广东海洋大学 一种多源多模态海洋大数据的离线批处理方法及系统
CN113268505A (zh) * 2021-04-29 2021-08-17 广东海洋大学 一种多源多模态海洋大数据的离线批处理方法及系统
CN113190358A (zh) * 2021-05-25 2021-07-30 曙光信息产业(北京)有限公司 作业分配方法、装置、电子设备及可读存储介质
CN113986514B (zh) * 2021-12-24 2022-04-26 飞狐信息技术(天津)有限公司 基于数据库部署的任务流控制方法和装置
CN113986514A (zh) * 2021-12-24 2022-01-28 飞狐信息技术(天津)有限公司 基于数据库部署的任务流控制方法和装置
CN114579183A (zh) * 2022-04-29 2022-06-03 之江实验室 一种用于分布式计算的作业分解处理方法
US11907693B2 (en) 2022-04-29 2024-02-20 Zhejiang Lab Job decomposition processing method for distributed computing
CN115408122A (zh) * 2022-08-01 2022-11-29 无锡雪浪数制科技有限公司 一种去中心化的分布式并行计算框架及计算方法
CN115408122B (zh) * 2022-08-01 2023-05-23 无锡雪浪数制科技有限公司 一种去中心化的分布式并行计算框架及计算方法
WO2024046130A1 (zh) * 2022-08-31 2024-03-07 中兴通讯股份有限公司 任务处理方法、电子设备以及存储介质
CN116737349A (zh) * 2023-08-16 2023-09-12 中国移动紫金(江苏)创新研究院有限公司 流式数据处理方法、系统及存储介质
CN116737349B (zh) * 2023-08-16 2023-11-03 中国移动紫金(江苏)创新研究院有限公司 流式数据处理方法、系统及存储介质

Also Published As

Publication number Publication date
CN110321223B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN110321223A (zh) Coflow协同作业流调度感知的数据流划分方法与装置
Rahbari et al. Task offloading in mobile fog computing by classification and regression tree
Hu et al. Time-and cost-efficient task scheduling across geo-distributed data centers
CN110166282A (zh) 资源分配方法、装置、计算机设备和存储介质
CN102541858B (zh) 基于映射和规约的数据均衡性处理方法、装置及系统
US20190229992A1 (en) System and Methods for Auto-Tuning Big Data Workloads on Cloud Platforms
CN110308984B (zh) 一种用于处理地理分布式数据的跨集群计算系统
CN114610474B (zh) 一种异构超算环境下多策略的作业调度方法及系统
Nguyen et al. Monad: Self-adaptive micro-service infrastructure for heterogeneous scientific workflows
Dong et al. Workflow scheduling based on deep reinforcement learning in the cloud environment
CN109614227A (zh) 任务资源调配方法、装置、电子设备及计算机可读介质
CN102937918A (zh) 一种hdfs运行时数据块平衡方法
US20210382775A1 (en) Systems and methods for classifying and predicting the cause of information technology incidents using machine learning
dos Anjos et al. Smart: An application framework for real time big data analysis on heterogeneous cloud environments
CN106502790A (zh) 一种基于数据分布的任务分配优化方法
Ever Performability analysis of cloud computing centers with large numbers of servers
Shabeera et al. Optimising virtual machine allocation in MapReduce cloud for improved data locality
Barika et al. Online scheduling technique to handle data velocity changes in stream workflows
Gu et al. Improving throughput and reliability of distributed scientific workflows for streaming data processing
Li et al. Performance modelling and cost effective execution for distributed graph processing on configurable VMs
CN111522637B (zh) 一种基于成本效益的storm任务调度方法
Cao et al. Online cost-rejection rate scheduling for resource requests in hybrid clouds
Barika et al. Adaptive scheduling for efficient execution of dynamic stream workflows
Rodrigues et al. Time-constrained and network-aware containers scheduling in GPU era
Cheng et al. Towards Network-aware Query Execution Systems in Large Datacenters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Li Kenli

Inventor after: Chen Jianguo

Inventor after: Peng Jiwu

Inventor after: Hu Junyan

Inventor after: Yang Wangdong

Inventor after: Li Keqin

Inventor before: Li Kenli

Inventor before: Chen Jianguo

Inventor before: Peng Jiwu

Inventor before: Hu Junyan

Inventor before: Yang Wangdong

Inventor before: Li Keqin

Inventor before: Liao Xiangke

CB03 Change of inventor or designer information