CN106339252B - 分布式dag系统的自适应优化方法和装置 - Google Patents

分布式dag系统的自适应优化方法和装置 Download PDF

Info

Publication number
CN106339252B
CN106339252B CN201510397422.1A CN201510397422A CN106339252B CN 106339252 B CN106339252 B CN 106339252B CN 201510397422 A CN201510397422 A CN 201510397422A CN 106339252 B CN106339252 B CN 106339252B
Authority
CN
China
Prior art keywords
data
node
time
computing
concurrency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510397422.1A
Other languages
English (en)
Other versions
CN106339252A (zh
Inventor
黄益聪
强琦
余骏
金晓军
廖新涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510397422.1A priority Critical patent/CN106339252B/zh
Priority to PCT/CN2016/087461 priority patent/WO2017005115A1/zh
Publication of CN106339252A publication Critical patent/CN106339252A/zh
Application granted granted Critical
Publication of CN106339252B publication Critical patent/CN106339252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种分布式DAG系统的自适应优化方法和装置,其中该方法包括:获取每个计算节点的性能数据;根据所述性能数据分别计算每个计算节点处理数据记录的时间,并根据计算节点处理数据记录的时间计算该计算节点的并发度;根据计算得到的并发度调整系统当前的并发度。通过本申请,能够使计算流水线满负载一致运行,在大幅节约机器成本的同时提升系统性能。

Description

分布式DAG系统的自适应优化方法和装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种分布式DAG系统的自适应优化方法和装置。
背景技术
DAG(Directed acyclic graph,有向无环图)可用于描述分布式离线/在线系统的工作流程图。图1示例了增量计算平台(Galaxy)某个任务(Job)的DAG拓扑图,图1中的每个计算节点(Model)由多个执行单元(Executor)并发运行。在典型的分布式离线/在线计算平台中,计算节点的类型可能包含有映射处理(Mapper)、归约处理(Reduce)、聚合处理(Merger)中的一种或者几种。
在DAG系统中,数据流从DAG图的根节点(即Source节点)流入,经过各级运算节点,从叶子节点(即Output节点)流出。在DAG中可能有1个或者多个根节点,在图1中包含有两个根节点:计算节点0和计算节点1;叶子节点也可能有一个或者多个,在图1中包含有4个叶子节点:计算节点16(Merger)、计算节点17(Merger)、计算节点18(Merger)和计算节点19(Merger)。
DAG拓扑图各级计算节点的计算对数据流形成了流水线,数据分批次从根节点流入,逐级经过各级计算计算节点后,结果从叶子节点输出。其中,计算节点的计算能力与速度,可以由该计算节点的并发度,即执行单元(Executor)的并发数目调整。
满负载完美运行的系统要求DAG中的所有计算节点计算能力具有一致性,如果某个计算节点的计算能力小于上级计算节点,那么上级计算节点输出的数据将在该计算节点堆积等待处理,并由此影响系统的吞吐性能。
在现有技术中,广泛使用的分布式离线/在线基于流水线的计算平台对计算节点并发度的设置依赖于人工设定,并在任务(Job)运行的生命周期保持不变,具体步骤如下:
(1)用户或者系统管理员在提交任务前,在配置文件中指定计算节点的并发度;
(2)系统在提交任务时读入配置文件,并据此设置各个计算节点的运行并发度;
(3)各个计算节点的并发度保持不变,直至任务运行结束。
现有的技术对计算节点并发度的设置依赖于人工设定,并在任务运行的生命周期内保持不变,具有如下缺点:
(1)依赖于人工经验设置很难得到完美的并发参数,使得DAG各级流水线能够一致协调运行。如前所述,参数需要在任务提交前设置,所以在首次设置参数时并不知道各计算节点运行时的真实性能。用户可能需要多次迭代:设置参数-提交任务运行-观察性能-重新设置参数-再次提交任务……;这样才能得到一组相对合适的参数运行任务。而且依赖于人工观察与设置,参数很可能并非最优配置。
(2)不能适应集群环境变化。在任务运行的生命周期内,任务运行的机器环境可能发生变化。比如机器出现故障,任务从原先的几台机器,调度到另几台机器运行;由于集群其他任务的运行,影响了任务的网络吞吐或者磁盘读写速度等。运行环境的变化,将影响计算节点的处理速度,即虽然设置的并发度不变,但是计算节点的实际运行速度发生了变化。因此,原先设置的参数可能将不再适用。
(3)不能适应数据流的变化。在实时流式处理系统中,数据流通常并非稳定的,随着业务需求可能有显著的峰值流量与空闲流量。固定不变的参数不能反映数据流的变化。为了适应峰值流量,通常需要设置较大的并发度,造成了集群资源的浪费。
上述缺点将带来如下后果:
(1)浪费机器资源。某个或者某几个计算节点设置的并发度可能高于运行时刻的实际需求,集群浪费资源运行空转的执行单元,等待数据。
(2)集群性能低于源头速度。流水线的吞吐受制于运转最慢的一级流水线或者其中的某个计算节点。不合适的参数设置使得流水线可能存在明显的短板,集群吞吐远低于可以达到的理论最佳值。
发明内容
本申请的主要目的在于提供一种分布式DAG系统的自适应优化方法和装置,以克服现有技术中的固定不变及非最优化的节点并发度导致降低系统运行效率的技术问题。
根据本申请实施例提供了一种分布式有向无环图DAG系统的自适应优化方法,所述分布式DAG系统包括多个计算节点,所述方法包括:获取每个计算节点的性能数据;根据所述性能数据分别计算每个计算节点处理数据记录的时间,并根据计算节点处理数据记录的时间计算该计算节点的并发度;根据计算得到的并发度调整系统当前的并发度。
其中,所述方法还包括:对所述DAG系统进行广度优先遍历,获取遍历到的计算节点的性能数据并根据所述性能数据计算该计算节点处理一条数据记录的时间,根据计算节点处理一条数据记录的时间计算该计算节点的并发度。
其中,所述计算节点的类型包括以下的一种或多种:映射处理节点、归约处理节点、聚合处理节点;所述方法还包括:根据计算节点的类型获取该计算节点的性能数据。
其中,所述方法还包括:将获取到的计算节点的性能数据存储至存储系统;从所述存储系统读取存储的性能数据,并根据读取的性能数据计算计算节点处理数据记录的时间。
其中,进一步包括:对于映射处理节点,获取映射处理节点执行一条数据记录的时间;根据以下公式计算映射处理节点处理数据记录的时间:ppti=li,其中,l为映射处理节点执行一条数据记录的时间。
其中,进一步包括:对于归约处理节点,获取归约处理节点执行预定批次数据所花费的时间以及执行预定批次数据的数据数量;根据以下公式计算映射处理节点处理数据记录的时间:ppti=fi/ti,其中,f为归约处理节点执行预定批次数据所花费的时间、t为归约处理节点执行预定批次数据的数据数量。
其中,进一步包括:对于聚合处理节点,获取聚合处理节点执行预定批次数据所花费的时间、执行预定批次数据的数据数量、生成检查点所需时间、生成一次检查点所间隔的数据批次;根据以下公式计算聚合处理节点处理数据记录的时间:ppti=max(fi/ti,cpti/ti*cbi),其中,f为聚合处理节点执行预定批次数据所花费的时间、t为聚合处理节点执行预定批次数据的数据数量、cpt为生成检查点所需时间、cb为生成一次检查点所间隔的数据批次。
其中,根据以下公式计算计算节点的并发度:adjV.dop=Sum(v.dop*v.ratio*adjV.ppt/v.ppt),其中,adjV为当前计算节点、v是当前计算节点的上游邻接计算节点、Sum()表示对当前计算节点的所有上游邻接计算节点求和、ratio为计算节点的吞吐率。
其中,所述根据计算得到的新的并发度调整系统当前的并发度,包括:对比计算得到的新的并发度与系统当前的并发度,如果差值大于预设阈值则初始化系统并以新的并发度运行系统。
根据本申请实施例还提供一种分布式DAG系统的自适应优化装置,所述分布式DAG系统包括多个计算节点,所述装置包括:数据获取模块,用于获取每个计算节点的性能数据;计算模块,用于根据所述性能数据分别计算每个计算节点处理数据记录的时间,并根据计算节点处理数据记录的时间计算该计算节点的并发度;自适应优化模块,用于根据计算得到的并发度调整系统当前的并发度。
其中,所述计算模块还用于,对所述DAG系统进行广度优先遍历,获取遍历到的计算节点的性能数据并根据所述性能数据计算该计算节点处理一条数据记录的时间,根据计算节点处理一条数据记录的时间计算该计算节点的并发度。
其中,所述计算节点的类型包括以下的一种或多种:映射处理节点、归约处理节点、聚合处理节点;所述数据获取模块还用于,根据计算节点的类型获取该计算节点的性能数据。
其中,所述装置还包括:存储模块,用于存储所述数据获取模块获取到的计算节点的性能数据;并接受所述计算模块从其中读取存储的性能数据,以使所述计算模块根据读取的性能数据计算计算节点处理数据记录的时间。
其中,所述数据获取模块包括:第一数据获取模块,用于对于映射处理节点,获取映射处理节点执行一条数据记录的时间;所述计算模块包括:第一计算模块,用于根据以下公式计算映射处理节点处理数据记录的时间:ppti=li,其中,l为映射处理节点执行一条数据记录的时间。
其中,所述数据获取模块包括:第二数据获取模块,用于对于归约处理节点,获取归约处理节点执行预定批次数据所花费的时间以及执行预定批次数据的数据数量;所述计算模块包括:第二计算模块,用于根据以下公式计算归约处理节点处理数据记录的时间:ppti=fi/ti,其中,f为采集归约处理节点执行预定批次数据所花费的时间、t为归约处理节点执行预定批次数据的数据数量。
其中,所述数据获取模块包括:第二数据获取模块,用于对于聚合处理节点,获取聚合处理节点执行预定批次数据所花费的时间、执行预定批次数据的数据数量、生成检查点所需时间、生成一次检查点所间隔的数据批次;所述计算模块包括:第三计算模块,用于根据以下公式计算聚合处理节点处理数据记录的时间:ppti=max(fi/ti,cpti/ti*cbi),其中,f为聚合处理节点执行预定批次数据所花费的时间、t为聚合处理节点执行预定批次数据的数据数量、cpt为生成检查点所需时间、cb为生成一次检查点所间隔的数据批次。
其中,所述计算模块还包括:第四计算模块,用于根据以下公式计算计算节点的并发度:adjV.dop=Sum(v.dop*v.ratio*adjV.ppt/v.ppt),其中,adjV为当前计算节点、v是当前计算节点的上游邻接计算节点、Sum()表示对当前计算节点的所有上游邻接计算节点求和、ratio为计算节点的吞吐率。
其中,所述自适应优化模块还用于,对比计算得到的新的并发度与系统当前的并发度,如果差值大于预设阈值则初始化系统并以新的并发度运行系统。
根据本申请的技术方案,依据运行时刻的采样数据,自动优化DAG拓扑图各个计算节点的并发度,使得计算流水线能够满负载一致运行,既不空转等待数据也不超负荷运行,在大幅节约机器成本的同时提升系统性能。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出现有技术的DAG拓扑图;
图2示出根据本申请一个实施例的分布式DAG系统的自适应优化方法的流程图;
图3示出根据本申请另一实施例的分布式DAG系统的自适应优化方法的流程图;
图4示出根据本申请一个实施例的分布式DAG系统的自适应优化装置的结构框图;
图5示出根据本申请另一实施例的分布式DAG系统的自适应优化装置的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请实施例提供一种分布式DAG系统的自适应优化方法。
图2示出根据本申请一个实施例的分布式DAG系统的自适应优化方法的流程图,如图2所示,所述方法包括:
步骤S202,获取每个计算节点的性能数据。
在分布式DAG系统中包括有多个计算节点,在目标系统启动运行后,开始实时采集每个计算节点(Model)的性能数据;然后,将采样得到的数据写入可靠的存储系统;当计算计算节点的性能数据时,通过存储系统读取其存储的性能数据。
在本申请的一个实施例中,计算节点的类型包括但不限于以下的一种或多种:映射处理节点(Mapper)、归约处理节点(Reduce)、聚合处理节点(Merger)。因此,需要根据计算节点的类型获取该计算节点的性能数据,例如:对于映射处理节点,获取映射处理节点执行一条数据记录的时间(l);用于对于归约处理节点,获取归约处理节点执行预定批次数据所花费的时间(f)以及执行预定批次数据的数据数量(t);用于对于聚合处理节点,获取聚合处理节点执行预定批次数据所花费的时间(f)、执行预定批次数据的数据数量(t)、生成检查点所需时间(cpt)、生成一次检查点所间隔的数据批次(cb)。
步骤S204,根据所述性能数据分别计算每个计算节点处理数据记录的时间,并根据计算节点处理数据记录的时间计算该计算节点的并发度。
每隔一个运行周期(例如30分钟),从存储系统读取该段时间的采样数据,并计算系统计算节点新的并发度。所谓计算节点的并发度,是指计算节点的执行单元(Executor)的并发数量。
具体地,把所有源头计算节点(即Model Source)加入访问集VisitQ,以VisitQ为起点对DAG进行广度优先遍历;对遍历到的当前计算节点,获取其性能数据,依据公式(1)计算当前计算节点的处理一条数据记录(tuple)的时间(Pure Processing Time,简称PPT):
Figure BDA0000755355430000071
其中:l为映射处理节点执行一条数据记录的时间;
f为归约处理节点或聚合处理节点执行一批数据所花费的时间;
t为归约处理或聚合处理节点执行一批数据的数据数量;
cpt为生成检查点(checkpoint)所需时间;
cb为生成一次检查点所间隔的数据批次,即每间隔多少批次数据做一次检查点。
通过公式(1)表明,在计算计算节点的PPT时,根据计算节点类型的不同分别使用不同的计算公式:对于映射处理节点,其PPT等于映射处理节点执行一条数据记录的时间(即l);对于归约处理节点,其PPT等于归约处理节点执行一批数据所花费的时间及该批次数据的数据数量的比值(即f/t);对于聚合处理节点,计算其PPT较复杂,首先计算节点执行一批数据所花费的时间及该批次数据的数据数量的比值(即f/t),再计算生成检查点所需时间与节点执行一批数据的数据数量的比值并乘以生成一次检查点所间隔的数据批次(即cpt/t*cb),最后取f/t和cpt/t*cb两值间的较大者作为聚合处理节点的PPT。
然后,依据公式(2)计算当前计算节点的并发度(Degree of Parallelism,简称DOP):
adjV.dop=Sum(v.dop*v.ratio*adjV.ppt/v.ppt) (2)
其中:adjV表示当前计算节点,v表示当前计算节点的上游邻接计算节点,Sum()表示对当前计算节点的所有上游邻接计算节点求和,ratio表示计算节点的吞吐率,ratio等于计算节点输出的数据记录(tuple)数量与计算节点输入的数据记录(tuple)数量的比值。
步骤S206,根据计算得到的并发度调整系统当前的并发度。
通过上述实施例,根据运行时刻采样数据自适应优化各计算节点的并发度,使得各级流水线的速度能够依据源头数据源的速度自动对齐,在节约机器成本的同时提高集群性能。
下面结合图3详细描述本申请实施例的细节。图3示出根据本申请另一实施例的分布式DAG系统的自适应优化方法的流程图,参考图3,所述方法包括:
步骤S302,系统初始化后,开始采集系统中每个计算节点(Model)的性能数据。其中采样间隔可自定义,例如15、30或60秒采集一次计算节点的性能数据。
在本申请中,计算节点的类型包括但不限于以下的一种或多种:映射处理节点(Mapper)、归约处理节点(Reduce)、聚合处理节点(Merger)。对于映射处理节点,采集节点执行一条数据记录的时间;对于归约处理节点,采集节点执行预定批次数据所花费的时间以及执行预定批次数据的数据数量;对于聚合处理节点,采集节点执行预定批次数据所花费的时间、执行预定批次数据的数据数量、生成检查点所需时间、生成一次检查点所间隔的数据批次。
步骤S304,将采样得到的数据存入可靠的存储系统,存储系统例如可以是分布式存储系统(HBase),也可以是其他的可靠的存储系统。
步骤S306,每隔预定的运行周期(例如15、30或60分钟),从存储系统读取该段时间的采样数据,并计算计算节点新的并发度。对所述DAG系统进行广度优先遍历,从存储系统读取遍历到的计算节点的性能数据,并根据采样数据计算计算节点处理数据记录的时间(PPT),具体地:
根据公式ppti=li计算映射处理节点的PPT;
根据公式ppti=fi/ti计算归约处理节点的PPT;
根据公式ppti=max(fi/ti,cpti/ti*cbi)计算聚合处理节点的PPT。
步骤S308,根据公式adjV.dop=Sum(v.dop*v.ratio*adjV.ppt/v.ppt)计算计算节点新的并发度(DOP)。
步骤S310,根据计算得到的新的并发度自动优化计算节点并发度。具体地,从系统的配置文件读取当前计算节点的并发度,对比新的并发度与系统当前计算节点的并发度,如果差值大于预先设置的阈值,则重新初始化系统,并以新的并发度重新运行系统。
下面结合具体实例详细描述本申请。表1示出了本申请对数据计算平台(Galaxy)线上资源消耗排名靠前的任务(Job)主要性能指标的优化前后的数据对比。
表1
Figure BDA0000755355430000101
在表1中,任务tcif_rp_view_taobao_app是Galaxy集群占用资源最多的任务,在性能优化前通过配置文件配置任务需要的资源数量:任务运行需要300个worker进程(worker_num),每个worker进程绑定4个CPU(cpu_bind)并使用3G内存(Memory),总资源需求为1200个CPU和900G内存,其中每个worker进程又包括多个Executor线程,原配置文件共配置使用2947个Executor线程。
数据从实时数据传输平台分批次不间断流入Galaxy集群,每批数据1000条数据记录。Galaxy集群依据计算任务生成DAG模型,该DAG中包括多个计算节点,按照配置文件将申请到的物理资源分配到各个计算节点,配置文件中的片段可以是:
Model0.parallelism=256
Model1.parallelism=76
也就是说,为计算节点0配置使用256个执行单元(Executor)线程,即计算节点0的并发度为256;表示为计算节点1配置使用256个执行单元线程,即计算节点1的并发度为76。
在DAG中,多个计算节点间存在依赖关系,比如:计算节点3和计算节点5是计算节点7的上游邻接计算节点(计算节点7需要依赖计算节点3与计算节点5的计算结果),而计算节点0是计算节点3的上游邻接计算节点(计算节点3需要依赖计算节点0的计算结果),计算节点1是计算节点5的上游邻接计算节点(计算节点5需要依赖计算节点1的计算结果);其中,计算节点0和计算节点1是根节点。
在计算计算节点7的并发度时,首先需要计算计算节点3和5的并发度。在本实例中,计算节点3、5和7的类型是映射处理节点;通过采样系统得到计算节点0的l值(执行一条数据记录的时间)为0.2秒、计算节点1的l值为0.1秒、计算节点3的l值为0.5秒、计算节点5的l值为0.3秒、计算节点7的l值为0.6秒;将计算节点3、5和7的吞吐率(ratio)都设置为1,则计算节点3、5和7并发度为:
Model3.dop=Model0.dop*Model0.ratio*Model3.ppt/Model0.ppt
=256*1*0.5/0.2=640
Model5.dop=Model1.dop*Model1.ratio*Model5.ppt/Model1.ppt
=76*1*0.3/0.1=228
Model7.dop=Model3.dop*Model3.ratio*Model7.ppt/Model3.ppt+
Model5.dop*Model5.ratio*Model7.ppt/Model5.ppt
=640*1*0.6/0.5+228*1*0.6/0.3=1224
通过上述计算得到了计算节点3、5和7的新的并发度,并依据上述原理分别计算系统中每个计算节点的并发度,然后重新初始化系统,以新的并发度重新运行系统。经过系统优化后,任务tcif_rp_view_taobao_app运行总资源需求由1200个CPU降低到300个CPU、任务延迟(BatchLatency,数据从源头到output model的延迟)由2.58毫秒下降到1.62毫秒,任务tcif_rp_view_taobao_app在节约900个CPU Core的同时,性能还提升了约60%。
应用本申请实施例优化之后,对数据计算平台线上资源消耗排名靠前的6个任务的优化总计可节约2040个CPU内核,系统资源成本下降75%的同时,性能平均提升了30%。
根据本申请实施例还提供一种分布式DAG系统的自适应优化装置。图4示出根据本申请一个实施例的分布式DAG系统的自适应优化装置的结构框图,参考图4,该装置包括:
数据获取模块410,用于获取每个计算节点的性能数据。
计算模块420,用于根据所述性能数据分别计算每个计算节点处理数据记录的时间,并根据计算节点处理数据记录的时间计算该计算节点的并发度;进一步地,计算模块420还用于,对所述DAG系统进行广度优先遍历,获取遍历到的计算节点的性能数据并计算该计算节点的并发度。
自适应优化模块430,用于根据计算得到的并发度调整系统当前的并发度。具体地,所述自适应优化模块430还用于,对比新的并发度与系统当前的并发度,如果差值大于预设阈值,则初始化系统以新的并发度运行系统。
在本申请的一个实施例中,所述计算节点的类型包括:映射处理节点、归约处理节点、聚合处理节点;所述数据获取模块410还用于,根据计算节点的类型获取该计算节点的性能数据。
参考图5,是根据本申请另一实施例的自适应优化装置的结构框图,如图5所示,所述数据获取模块410进一步包括:第一数据获取模块512、第二数据获取模块514和第三数据获取模块516。
其中,第一数据获取模块512,用于对于映射处理节点,获取节点执行一条数据记录的时间(l);第二数据获取模块514,用于对于归约处理节点,获取节点执行预定批次数据所花费的时间(f)以及执行预定批次数据的数据数量(t);第三数据获取模块516,用于对于聚合处理节点,获取节点执行预定批次数据所花费的时间(f)、执行预定批次数据的数据数量(t)、生成检查点所需时间(cpt)、生成一次检查点所间隔的数据批次(cb)。
所述计算模块420进一步包括:第一计算模块522、第二计算模块524、第三计算模块526和第四计算模块528。
其中,第一计算模块522,用于根据以下公式计算映射处理节点处理数据记录的时间:ppti=li,其中,l为映射处理节点执行一条数据记录的时间。
第二计算模块524,用于根据以下公式计算归约处理节点处理数据记录的时间:ppti=fi/ti,其中,f为采集归约处理节点执行预定批次数据所花费的时间、t为归约处理节点执行预定批次数据的数据数量。
第三计算模块526,用于根据以下公式计算聚合处理节点处理数据记录的时间:ppti=max(fi/ti,cpti/ti*cbi),其中,f为聚合处理节点执行预定批次数据所花费的时间、t为聚合处理节点执行预定批次数据的数据数量、cpt为生成检查点所需时间、cb为生成一次检查点所间隔的数据批次。
第三计算模块528,用于根据以下公式计算计算节点的并发度:adjV.dop=Sum(v.dop*v.ratio*adjV.ppt/v.ppt),其中,adjV为当前计算节点、v是当前计算节点的上游邻接计算节点、Sum()表示对当前计算节点的所有上游邻接计算节点求和、ratio为计算节点的吞吐率。
继续参考图5,所述装置还包括有:存储模块440,用于存储所述数据获取模块410获取到的计算节点的性能数据;并接受所述计算模块420从其中读取存储的性能数据,以使所述计算模块420根据读取的性能数据计算计算节点处理数据记录的时间。
本申请的方法的操作步骤与装置的结构特征对应,可以相互参照,不再一一赘述。
综上所述,根据本申请的技术方案,依据运行时刻的采样数据,自动优化DAG拓扑图各个计算节点的并发度,使得计算流水线能够满负载一致运行(不空转等待数据也不超负荷),在大幅节约机器成本的同时提升系统性能。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种分布式有向无环图DAG系统的自适应优化方法,所述分布式DAG系统包括多个计算节点,其特征在于,所述方法包括:
根据计算节点的类型获取每个计算节点的性能数据,所述计算节点的类型包括以下的一种或多种:映射处理节点、归约处理节点、聚合处理节点;
根据所述性能数据分别计算每个计算节点处理数据记录的时间,并根据计算节点处理数据记录的时间,根据以下公式,计算该计算节点的并发度;
adjV.dop=Sum(v.dop*v.ratio*adjV.ppt/v.ppt),
其中,adjV为当前计算节点、v是当前计算节点的上游邻接计算节点、Sum()表示对当前计算节点的所有上游邻接计算节点求和、ratio为计算节点的吞吐率;
根据计算得到的并发度调整系统当前的并发度。
2.根据权利要求1所述的方法,其特征在于,还包括:
对所述DAG系统进行广度优先遍历,获取遍历到的计算节点的性能数据并根据所述性能数据计算该计算节点处理一条数据记录的时间,根据计算节点处理一条数据记录的时间计算该计算节点的并发度。
3.根据权利要求1所述的方法,其特征在于,还包括:
将获取到的计算节点的性能数据存储至存储系统;
从所述存储系统读取存储的性能数据,并根据读取的性能数据计算计算节点处理数据记录的时间。
4.根据权利要求1所述的方法,其特征在于,进一步包括:
对于映射处理节点,获取映射处理节点执行一条数据记录的时间;
根据以下公式计算映射处理节点处理数据记录的时间:ppti=li,其中,l为映射处理节点执行一条数据记录的时间。
5.根据权利要求1所述的方法,其特征在于,进一步包括:
对于归约处理节点,获取归约处理节点执行预定批次数据所花费的时间以及执行预定批次数据的数据数量;
根据以下公式计算映射处理节点处理数据记录的时间:ppti=fi/ti,其中,f为归约处理节点执行预定批次数据所花费的时间、t为归约处理节点执行预定批次数据的数据数量。
6.根据权利要求1所述的方法,其特征在于,进一步包括:
对于聚合处理节点,获取聚合处理节点执行预定批次数据所花费的时间、执行预定批次数据的数据数量、生成检查点所需时间、生成一次检查点所间隔的数据批次;
根据以下公式计算聚合处理节点处理数据记录的时间:ppti=max(fi/ti,cpti/ti*cbi),其中,f为聚合处理节点执行预定批次数据所花费的时间、t为聚合处理节点执行预定批次数据的数据数量、cpt为生成检查点所需时间、cb为生成一次检查点所间隔的数据批次。
7.根据权利要求1所述的方法,其特征在于,所述根据计算得到的新的并发度调整系统当前的并发度,包括:
对比计算得到的新的并发度与系统当前的并发度,如果差值大于预设阈值则初始化系统并以新的并发度运行系统。
8.一种分布式DAG系统的自适应优化装置,所述分布式DAG系统包括多个计算节点,其特征在于,所述装置包括:
数据获取模块,用于根据计算节点的类型获取每个计算节点的性能数据,所述计算节点的类型包括以下的一种或多种:映射处理节点、归约处理节点、聚合处理节点;
计算模块,用于根据所述性能数据分别计算每个计算节点处理数据记录的时间,并根据计算节点处理数据记录的时间计算该计算节点的并发度;
第四计算模块,用于根据以下公式计算计算节点的并发度:adjV.dop=Sum(v.dop*v.ratio*adjV.ppt/v.ppt),其中,adjV为当前计算节点、v是当前计算节点的上游邻接计算节点、Sum()表示对当前计算节点的所有上游邻接计算节点求和、ratio为计算节点的吞吐率;
自适应优化模块,用于根据计算得到的并发度调整系统当前的并发度。
9.根据权利要求8所述的装置,其特征在于,所述计算模块还用于,对所述DAG系统进行广度优先遍历,获取遍历到的计算节点的性能数据并根据所述性能数据计算该计算节点处理一条数据记录的时间,根据计算节点处理一条数据记录的时间计算该计算节点的并发度。
10.根据权利要求8所述的装置,其特征在于,还包括:
存储模块,用于存储所述数据获取模块获取到的计算节点的性能数据;并接受所述计算模块从其中读取存储的性能数据,以使所述计算模块根据读取的性能数据计算计算节点处理数据记录的时间。
11.根据权利要求8所述的装置,其特征在于,
所述数据获取模块包括:第一数据获取模块,用于对于映射处理节点,获取映射处理节点执行一条数据记录的时间;
所述计算模块包括:第一计算模块,用于根据以下公式计算映射处理节点处理数据记录的时间:ppti=li,其中,l为映射处理节点执行一条数据记录的时间。
12.根据权利要求8所述的装置,其特征在于,
所述数据获取模块包括:第二数据获取模块,用于对于归约处理节点,获取归约处理节点执行预定批次数据所花费的时间以及执行预定批次数据的数据数量;
所述计算模块包括:第二计算模块,用于根据以下公式计算归约处理节点处理数据记录的时间:ppti=fi/ti,其中,f为采集归约处理节点执行预定批次数据所花费的时间、t为归约处理节点执行预定批次数据的数据数量。
13.根据权利要求8所述的装置,其特征在于,
所述数据获取模块包括:第二数据获取模块,用于对于聚合处理节点,获取聚合处理节点执行预定批次数据所花费的时间、执行预定批次数据的数据数量、生成检查点所需时间、生成一次检查点所间隔的数据批次;
所述计算模块包括:第三计算模块,用于根据以下公式计算聚合处理节点处理数据记录的时间:ppti=max(fi/ti,cpti/ti*cbi),其中,f为聚合处理节点执行预定批次数据所花费的时间、t为聚合处理节点执行预定批次数据的数据数量、cpt为生成检查点所需时间、cb为生成一次检查点所间隔的数据批次。
14.根据权利要求8所述的装置,其特征在于,所述自适应优化模块还用于,对比计算得到的新的并发度与系统当前的并发度,如果差值大于预设阈值则初始化系统并以新的并发度运行系统。
CN201510397422.1A 2015-07-08 2015-07-08 分布式dag系统的自适应优化方法和装置 Active CN106339252B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510397422.1A CN106339252B (zh) 2015-07-08 2015-07-08 分布式dag系统的自适应优化方法和装置
PCT/CN2016/087461 WO2017005115A1 (zh) 2015-07-08 2016-06-28 分布式dag系统的自适应优化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510397422.1A CN106339252B (zh) 2015-07-08 2015-07-08 分布式dag系统的自适应优化方法和装置

Publications (2)

Publication Number Publication Date
CN106339252A CN106339252A (zh) 2017-01-18
CN106339252B true CN106339252B (zh) 2020-06-23

Family

ID=57684691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510397422.1A Active CN106339252B (zh) 2015-07-08 2015-07-08 分布式dag系统的自适应优化方法和装置

Country Status (2)

Country Link
CN (1) CN106339252B (zh)
WO (1) WO2017005115A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315834A (zh) * 2017-07-12 2017-11-03 广东奡风科技股份有限公司 一种基于广度优先搜索算法的etl作业流程分析方法
CN109725989B (zh) * 2017-10-31 2020-07-31 阿里巴巴集团控股有限公司 一种任务执行的方法及装置
CN107832151B (zh) * 2017-11-10 2020-09-25 东软集团股份有限公司 一种cpu资源分配方法、装置及设备
CN110362387B (zh) * 2018-04-11 2023-07-25 阿里巴巴集团控股有限公司 分布式任务的处理方法、装置、系统和存储介质
CN111158901B (zh) * 2019-12-09 2023-09-08 爱芯元智半导体(宁波)有限公司 计算图的优化方法、装置、计算机设备和存储介质
CN111400008B (zh) * 2020-03-13 2023-06-02 北京旷视科技有限公司 计算资源调度方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012844A (zh) * 2010-11-29 2011-04-13 上海大学 一种面向cmp系统的线程调度方法
CN102360246A (zh) * 2011-10-14 2012-02-22 武汉理工大学 一种异构分布式系统中基于自适应阈值的节能调度方法
CN103699433A (zh) * 2013-12-18 2014-04-02 中国科学院计算技术研究所 一种于Hadoop平台中动态调整任务数目的方法及系统
CN103870340A (zh) * 2014-03-06 2014-06-18 华为技术有限公司 流计算系统中的数据处理方法、控制节点及流计算系统
CN104317658A (zh) * 2014-10-17 2015-01-28 华中科技大学 一种基于MapReduce的负载自适应任务调度方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171731A1 (en) * 2007-12-28 2009-07-02 International Business Machines Corporation Use of graphs in managing computing environments
CN103150148B (zh) * 2013-03-06 2016-06-01 中国科学院对地观测与数字地球科学中心 一种基于任务树的大尺度遥感影像并行镶嵌方法
CN103491024B (zh) * 2013-09-27 2017-01-11 中国科学院信息工程研究所 一种面向流式数据的作业调度方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012844A (zh) * 2010-11-29 2011-04-13 上海大学 一种面向cmp系统的线程调度方法
CN102360246A (zh) * 2011-10-14 2012-02-22 武汉理工大学 一种异构分布式系统中基于自适应阈值的节能调度方法
CN103699433A (zh) * 2013-12-18 2014-04-02 中国科学院计算技术研究所 一种于Hadoop平台中动态调整任务数目的方法及系统
CN103870340A (zh) * 2014-03-06 2014-06-18 华为技术有限公司 流计算系统中的数据处理方法、控制节点及流计算系统
CN104317658A (zh) * 2014-10-17 2015-01-28 华中科技大学 一种基于MapReduce的负载自适应任务调度方法

Also Published As

Publication number Publication date
CN106339252A (zh) 2017-01-18
WO2017005115A1 (zh) 2017-01-12

Similar Documents

Publication Publication Date Title
CN106339252B (zh) 分布式dag系统的自适应优化方法和装置
CN107612886A (zh) 一种Spark平台Shuffle过程压缩算法决策方法
CN103605662B (zh) 一种分布式计算框架参数优化方法、装置及系统
CN110908641B (zh) 基于可视化的流计算平台、方法、设备和存储介质
CN103218263B (zh) MapReduce参数的动态确定方法及装置
CN103399800B (zh) 基于Linux并行计算平台的动态负载均衡方法
CN110347515B (zh) 一种适合边缘计算环境的资源优化分配方法
CN112637263B (zh) 一种多数据中心资源优化提升方法、系统和存储介质
CN104408106A (zh) 一种用于分布式文件系统中大数据查询的调度方法
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
Petrov et al. Adaptive performance model for dynamic scaling Apache Spark Streaming
CN106326005B (zh) 一种迭代型MapReduce作业的参数自动调优方法
CN109558232B (zh) 并行度的确定方法、装置、设备及介质
CN106648839A (zh) 数据处理的方法和装置
CN113742036B (zh) 指标处理方法、装置及电子设备
CN105740249B (zh) 一种大数据作业并行调度过程中的处理方法及其系统
CN102546235A (zh) 云计算环境下面向web应用的性能诊断方法和系统
CN104636397A (zh) 用于分布式计算的资源分配方法、计算加速方法以及装置
CN108664322A (zh) 数据处理方法及系统
CN110362387B (zh) 分布式任务的处理方法、装置、系统和存储介质
CN103810258A (zh) 基于数据仓库的数据汇聚调度方法
Lei et al. Redoop: Supporting Recurring Queries in Hadoop.
Liu et al. A survey of speculative execution strategy in MapReduce
CN111210156B (zh) 基于流窗口实现的实时流数据处理方法及装置
CN106528849B (zh) 面向完整历史记录的图查询开销方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant