CN113760489A - 一种资源配置方法和装置 - Google Patents

一种资源配置方法和装置 Download PDF

Info

Publication number
CN113760489A
CN113760489A CN202010992982.2A CN202010992982A CN113760489A CN 113760489 A CN113760489 A CN 113760489A CN 202010992982 A CN202010992982 A CN 202010992982A CN 113760489 A CN113760489 A CN 113760489A
Authority
CN
China
Prior art keywords
information
stages
spark
spark task
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010992982.2A
Other languages
English (en)
Other versions
CN113760489B (zh
Inventor
牛磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010992982.2A priority Critical patent/CN113760489B/zh
Publication of CN113760489A publication Critical patent/CN113760489A/zh
Application granted granted Critical
Publication of CN113760489B publication Critical patent/CN113760489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/482Application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5018Thread allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本申请提供了一种资源配置方法和装置。所述方法包括:在Spark任务运行之后,通过执行脚本调用Spark应用程序接口API获取所述Spark任务对应的JSON信息;分析所述JSON信息生成stages信息;基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优;使用调优后的参数进行资源配置。该方法能够能够在节省成本的前提下自动进行参数调优,以提高资源配置效率。

Description

一种资源配置方法和装置
技术领域
本发明涉及计算机处理技术领域,特别涉及一种资源配置方法和装置。
背景技术
Spark是目前运用最广泛的大数据计算引擎。Spark任务是用Spark框架写的计算任务。Spark任务的性能非常重要,如果调优得当,可将一个几小时的Spark任务降至几十分钟,极大节省集群算力。
目前的Spark任务调优基本都是通过人力在Spark Web UI中查看Spark的stages信息,分析出任务输入、输出的数据量和shuffle耗时过长的stage,然后对任务的参数和程序进行调优,不断的尝试之后,得出最优参数和程序。
在实现本申请的过程中,发明人发现通过人力进行Spark任务调优成本高,且工作效率低下。
发明内容
有鉴于此,本申请提供一种资源配置方法和装置,能够在低成本条件下提高任务调优效率。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种资源配置方法,所述方法包括:
在Spark任务运行之后,通过执行脚本调用Spark API获取所述Spark任务对应的JSON信息;
分析所述JSON信息生成stages信息;
基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优;
使用调优后的参数进行资源配置。
在另一个实施例中,提供了一种任务调优装置,所述装置包括:获取单元、分析生成单元、调优单元和配置单元;
所述获取单元,用于在Spark任务运行之后,通过执行脚本调用Spark API获取所述Spark任务对应的JSON信息;
所述分析生成单元,用于分析所述获取单元获取的JSON信息获取stage的信息,生成stages信息;
所述调优单元,用于基于所述分析生成单元生成的stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优;
所述配置单元,用于使用所述调优单元调优后的参数进行资源配置。
在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述资源配置方法的步骤。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述资源配置方法的步骤。
由上面的技术方案可见,上述实施例中通过执行脚本调用API获取JSON信息,分析获得stages信息,基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优,并使用调优后的参数进行资源配置,取代人力从Spark Web UI查看和分析的工作。该方案能够在节省成本的前提下自动进行参数调优,以提高资源配置效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一中资源配置流程示意图;
图2为本申请实施例二中资源配置流程示意图;
图3为本申请实施例三中资源配置流程示意图;
图4为本申请实施例中应用于上述技术的装置结构示意图;
图5为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
本申请实施例中提供一种资源配置方法,主要应用于用Spark框架写的计算任务,即Spark任务的参数调优,以及提高资源配置的效率。
Spark是Apache专为大规模数据处理而设计的快速通用的计算引擎。
本申请实施例中通过用脚本工具替代Spark任务的人力调优工作,基于Spark应用程序接口(Application Programming Interface,API)获取任务的stages信息,分析出任务最优参数和优化点,并对Spark代码进行修改,完成优化,使用优化后的参数进行资源部署。该方案能够在低成本条件下提高资源配置效率。
Stage是Spark术语,Spark任务可根据shuffle情况分为数个stage,每个stage都有自己的运行时间、数据输入输出量、shuffle输入输出量等数据。
下面结合附图,以Spark任务为例,详细说明本申请实施例中实现任务调优过程。
实施例一
参见图1,图1为本申请实施例一中资源配置流程示意图。具体步骤为:
步骤101,在Spark任务运行之后,通过执行脚本调用Spark API获取所述Spark任务对应的JSON信息。
Spark任务调优要求在任务已经运行过之后,有性能日志做参照的情况下进行。
通过执行脚本调用Spark API,传递参照任务的application_id,获取对应Spark任务的JSON信息。
这里执行脚本执行,表示这是一种自动化执行,不是手动执行。
API是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程,而又无需访问源码,或理解内部工作机制的细节。
其中,对象简谱(JavaScript Object Notation,JSON)是一种轻量级的数据交换格式;application_id:是Spark任务运行时对应的应用id,每个任务的id都是唯一的。
步骤102,分析所述JSON信息生成stages信息。
分析JSON信息可获得stage的数量,以及每个stage的数据输入输出量、shuffle情况、耗时等。
所有stage的信息组成stages信息。
在具体实现时,将所述stages信息以程序便于读取的方式进行存储。
本申请实施例中对stages信息的存储方式不进行限制,给出如下存储方式为例:
将生成的stages信息使用stages链表进行存储;其中,所述链表的每个节点是一个stage对象。
即将所述stages信息可用程序处理成stages链表进行保存,链表的每个节点都是一个stage对象。
步骤103,基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优。
本步骤中基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优,具体包括:
第一步、从所述stages信息中获取输入数据量最大的stage;并以所述stage的输入数据量以GB为单位向上取整,获得所述Spark任务所需内存估值MGB。
如输入数据量为1.5GB,则以GB为单位向上取整为2GB,将2GB作为内存估值。
第二步、计算M与K的比值H,以及H与L的比值C。
其中,KGB为预设一个分区处理的数据量,L为预设一个核(core)处理分区的个数。
在具体实现时,可以根据实际应用情况设置,本申请实施例对此不进行限制。
设置规则时,针对一个分区处理的数据量可以设置200MB到400MB之间的数值,如K可以设置为300MB;
针对一个core处理分区的个数可以设置2、3等数值。
H=M/K,C=H/L。
第三步、获取M和C的公约数。
M和C的公约数可以组成一个列表。
第四步、选择一公约数D作为申请服务器的数据;其中,其中,M/D的值属于设置的内存容量范围,C/D的值属于设置的core数量范围。
也就是说确定出能使单服务器负载在预设范围内的服务器数目D。
core为Spark参数,可以理解为Spark任务运行时申请的工作核数。
遍历所述列表中的公约数,如一个公约数满足下述条件,则选择所述公约数作为申请服务器的数目。
设置的单个服务器占用内存的取值范围为[1,P],core数量的取值范围为[2,X];如P根据单个服务器的内存容量设置,如可以设置为20;X根据单个服务器的core数量确定,如可以设置为10;
则如选公约数D,且公约数D对应的M/D,以及C/D满足如下条件:
1GB<=M/D<=PGB,2<=C/D<=X;
那么选择D作为申请服务器的数目。
如果按照上述方式选择出多个满足条件的公约数,则将所有公约数排序,选择出的公约数哪个与所有公约数排序后的中位数最接近,则选择哪个公约数作为申请服务器的数据,如果距离中位数的距离相同,则随机选择一个公约数作为申请服务器的数目。
对参数调优过程进一步包括:
分析所述JSON信息获取所述stage的数量;
若stage的数量大于预设数量值,则在优化线程调度。
具体实现时,可以通过添加speculation参数实现在任务复杂的情况下优化线程调度,这里在stage的数量大于预设数量值时确定当前处于任务复杂情况。
对参数调优过程进一步包括:
若stages信息中有数据划分字段,则优化数据划分性能。
具体实现时,通过添加数据划分(shuffle)service参数实现又换数据划分性能。
其中,Shuffle为大数据术语,指数据划分、映射、聚合的过程,比如将一堆数据按key值分类聚合,就会触发shuffle行为。
在具体实现参数优化时,如果需要修改参数,则可以通过正则替换直接在原参数上替换、修改。
步骤104,使用调优后的参数进行资源配置。
本申请实施例中通过执行脚本调用API获取JSON信息,分析获得stages信息,基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优,并使用调优后的参数进行资源配置,取代人力从Spark Web UI查看和分析的工作。该方案能够在节省成本的前提下自动进行参数调优,以提高资源配置效率。
在参数调优时,可以调优申请服务器的数目、线程调度、shuffle性能等;并且通过正则替换直接修改代码,取代人力分析和代码修改工作。
实施例二
参见图2,图2为本申请实施例二中资源配置流程示意图。具体步骤为:
步骤201,在Spark任务运行之后,通过调用Spark API获取所述Spark任务对应的JSON信息。
Spark任务调优要求在任务已经运行过之后,有性能日志做参照的情况下进行。
通过执行脚本调用Spark API,传递参照任务的application_id,获取对应Spark任务的JSON信息。
这里执行脚本执行,表示这是一种自动化执行,不是手动执行。
API是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程,而又无需访问源码,或理解内部工作机制的细节。
其中,对象简谱(JavaScript Object Notation,JSON)是一种轻量级的数据交换格式;application_id:是Spark任务运行时对应的应用id,每个任务的id都是唯一的。
步骤202,分析所述JSON信息生成stages信息。
分析JSON信息可获得stage的数量,以及每个stage的数据输入输出量、shuffle情况、耗时等。
所有stage的信息组成stages信息。
在具体实现时,将所述stages信息以程序便于读取的方式进行存储。
本申请实施例中对stages信息的存储方式不进行限制,给出如下存储方式为例:
将生成的stages信息使用stages链表进行存储;其中,所述链表的每个节点是一个stage对象。
即将所述stages信息可用程序处理成stages链表进行保存,链表的每个节点都是一个stage对象。
步骤203,基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优。
本步骤中基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优,具体包括:
第一步、从所述stages信息中获取输入数据量最大的stage;并以所述stage的输入数据量以GB为单位向上取整,获得所述Spark任务所需内存估值MGB。
如输入数据量为1.5GB,则以GB为单位向上取整为2GB,将2GB作为内存估值。
第二步、计算M与K的比值H,以及H与L的比值C。
其中,KGB为预设一个分区处理的数据量,L为预设一个核(core)处理分区的个数。
在具体实现时,可以根据实际应用情况设置,本申请实施例对此不进行限制。
设置规则时,针对一个分区处理的数据量可以设置200MB到400MB之间的数值,如K可以设置为300MB;
针对一个core处理分区的个数可以设置2、3等数值。
H=M/K,C=H/L。
第三步、获取M和C的公约数。
M和C的公约数可以组成一个列表。
第四步、选择一公约数D作为申请服务器的数据;其中,其中,M/D的值属于设置的内存容量范围,C/D的值属于设置的core数量范围。
也就是说确定出能使单服务器负载在预设范围内的服务器数目D。
core为Spark参数,可以理解为Spark任务运行时申请的工作核数。
遍历所述列表中的公约数,如一个公约数满足下述条件,则选择所述公约数作为申请服务器的数目。
设置的单个服务器占用内存的取值范围为[1,P],core数量的取值范围为[2,X];如P根据单个服务器的内存容量设置,如可以设置为20;X根据单个服务器的core数量确定,如可以设置为10;
则如选公约数D,且公约数D对应的M/D,以及C/D满足如下条件:
1GB<=M/D<=PGB,2<=C/D<=X;
那么选择D作为申请服务器的数目。
如果按照上述方式选择出多个满足条件的公约数,则将所有公约数排序,选择出的公约数哪个与所有公约数排序后的中位数最接近,则选择哪个公约数作为申请服务器的数据,如果距离中位数的距离相同,则随机选择一个公约数作为申请服务器的数目。
对参数调优过程进一步包括:
分析所述JSON信息获取所述stage的数量;
若stage的数量大于预设数量值,则在优化线程调度。
具体实现时,可以通过添加speculation参数实现在任务复杂的情况下优化线程调度,这里在stage的数量大于预设数量值时确定当前处于任务复杂情况。
对参数调优过程进一步包括:
若stages信息中有数据划分字段,则优化数据划分性能。
具体实现时,通过添加数据划分(shuffle)service参数实现又换数据划分性能。
其中,Shuffle为大数据术语,指数据划分、映射、聚合的过程,比如将一堆数据按key值分类聚合,就会触发shuffle行为。
在具体实现参数优化时,如果需要修改参数,则可以通过正则替换直接在原参数上替换、修改。
步骤204,基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优。
其中,Hive是一个数据仓库工具,用来进行数据提取、转化、加载。
本步骤中基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优的方式给出如下两种实现方式,但是不限于如下两种:
第一种:
第一步、根据数据划分字段将代码划分为多个stage存储到一个stages列表B。
具体实现时,从后向前扫描spark代码,当扫描到shuffle语句时,将之前的代码划分到一个stage里,将划分出的多个stage存储到一个stages列表B。
本申请实施例中具体实现时,可以将stages信息存储到一个链表中,如链表A,则列表B的长度和链表A的长度理论上是一致的,可以更容易获取对应stage。
第二步、通过正则匹配确定stages列表B中有写hive行为的stage,并获取所述stage在所述stages信息中对应的数据输出量O。
正则匹配代码中含有”insert into”、”insert overwrite”、”.write(*)”的stage,认定为有写hive行为的stage。
第三步、计算hive的线程数T为O与Y的比值。
其中,所述Y为1个线程写的预设值数据,即预设一个线程写YGB数据。
具体实现是,Y的值可以根基实际需要设置,如设为1,对此不进行限制。
第四步、通过正则匹配出所述写hive行为,更新线程数为T。
具体实现时通过正则匹配出所述写hive行为所读的dataframe,为所述dataframe添加.repartition(T)操作。
到此完成了最优写hive数据线程数目设定。
第二种:
预先在Spark任务的代码的写hive的分区数进行变量标记。
具体实现为:预先在Spark任务的代码中写hive代码所读的repartition里用OptimizationNum[N]进行变量标记,其中OptimizationNum[N]为repartition中的变量。
所述基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优,包括:
第一步、根据数据划分字段将代码划分为多个stage存储到一个stages列表B。
具体实现可以为:从后向前扫描spark代码,当扫描到数据划分(shuffle)语句时,将之前的代码划分到一个stage里,将划分出的多个stage存储到一个stages列表B;
本申请实施例中具体实现时,可以将stages信息存储到一个链表中,如链表A,则列表B的长度和链表A的长度理论上是一致的,可以更容易获取对应stage。
第二步、若确定stages列表B中的stage里存在变量标记,则确定所述stage中有写hive行为;取所述stage在所述stages信息中对应的数据输出量O。
通过正则匹配含有”OptimizationNum[N]”的stage,即可认定为有写hive行为的stage。
其中OptimizationNum[N]是一个变量,[N]是数字,多个写hive行为后可以通过递增N的值来区分,比如:OptimizationNum1、OptimizationNum2。
第三步、计算hive的线程数T为O与Y的比值,其中,所述Y为1个线程写的预设值数据。
其中,所述Y为1个线程写的预设值数据,即预设一个线程写YG数据。
具体实现是,Y的值可以根基实际需要设置,如设为1,对此不进行限制。
第四步、使用所述线程数T对标记变量进行正则替换。
具体实现时,通过正则替换,将OptimizationHum[N]替换为计算出的对应的T值。
到此完成了最优写hive数据线程数目设定。
步骤205,使用调优后的参数进行资源配置。
本申请实施例中通过执行脚本调用API获取JSON信息,分析获得stages信息,基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优,基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优;并使用调优后的参数进行资源配置,取代人力从Spark Web UI查看和分析的工作。该方案能够在节省成本的前提下自动进行参数调优,以提高资源配置效率。
在参数调优时,可以调优申请服务器的数目、线程调度、shuffle性能等;并且通过正则替换直接修改代码,取代人力分析和代码修改工作。
实施例三
参见图3,图3为本申请实施例三中资源配置流程示意图。具体步骤为:
步骤301,在Spark任务运行之后,通过调用Spark API获取所述Spark任务对应的JSON信息。
Spark任务调优要求在任务已经运行过之后,有性能日志做参照的情况下进行。
通过执行脚本调用Spark API,传递参照任务的application_id,获取对应Spark任务的JSON信息。
这里执行脚本执行,表示这是一种自动化执行,不是手动执行。
API是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程,而又无需访问源码,或理解内部工作机制的细节。
其中,对象简谱(JavaScript Object Notation,JSON)是一种轻量级的数据交换格式;application_id:是Spark任务运行时对应的应用id,每个任务的id都是唯一的。
步骤302,分析所述JSON信息生成stages信息。
分析JSON信息可获得stage的数量,以及每个stage的数据输入输出量、shuffle情况、耗时等。
所有stage的信息组成stages信息。
在具体实现时,将所述stages信息以程序便于读取的方式进行存储。
本申请实施例中对stages信息的存储方式不进行限制,给出如下存储方式为例:
将生成的stages信息使用stages链表进行存储;其中,所述链表的每个节点是一个stage对象。
即将所述stages信息可用程序处理成stages链表进行保存,链表的每个节点都是一个stage对象。
步骤303,基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优。
本步骤中基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优,具体包括:
第一步、从所述stages信息中获取输入数据量最大的stage;并以所述stage的输入数据量以GB为单位向上取整,获得所述Spark任务所需内存估值MGB。
如输入数据量为1.5GB,则以GB为单位向上取整为2GB,将2GB作为内存估值。
第二步、计算M与K的比值H,以及H与L的比值C。
其中,KGB为预设一个分区处理的数据量,L为预设一个核(core)处理分区的个数。
在具体实现时,可以根据实际应用情况设置,本申请实施例对此不进行限制。
设置规则时,针对一个分区处理的数据量可以设置200MB到400MB之间的数值,如K可以设置为300MB;
针对一个core处理分区的个数可以设置2、3等数值。
H=M/K,C=H/L。
第三步、获取M和C的公约数。
M和C的公约数可以组成一个列表。
第四步、选择一公约数D作为申请服务器的数据;其中,其中,M/D的值属于设置的内存容量范围,C/D的值属于设置的core数量范围。
也就是说确定出能使单服务器负载在预设范围内的服务器数目D。
core为Spark参数,可以理解为Spark任务运行时申请的工作核数。
遍历所述列表中的公约数,如一个公约数满足下述条件,则选择所述公约数作为申请服务器的数目。
设置的单个服务器占用内存的取值范围为[1,P],core数量的取值范围为[2,X];如P根据单个服务器的内存容量设置,如可以设置为20;X根据单个服务器的core数量确定,如可以设置为10;
则如选公约数D,且公约数D对应的M/D,以及C/D满足如下条件:
1GB<=M/D<=PGB,2<=C/D<=X;
那么选择D作为申请服务器的数目。
如果按照上述方式选择出多个满足条件的公约数,则将所有公约数排序,选择出的公约数哪个与所有公约数排序后的中位数最接近,则选择哪个公约数作为申请服务器的数据,如果距离中位数的距离相同,则随机选择一个公约数作为申请服务器的数目。
对参数调优过程进一步包括:
分析所述JSON信息获取所述stage的数量;
若stage的数量大于预设数量值,则在优化线程调度。
具体实现时,可以通过添加speculation参数实现在任务复杂的情况下优化线程调度,这里在stage的数量大于预设数量值时确定当前处于任务复杂情况。
对参数调优过程进一步包括:
若stages信息中有数据划分字段,则优化数据划分性能。
具体实现时,通过添加数据划分(shuffle)service参数实现又换数据划分性能。
其中,Shuffle为大数据术语,指数据划分、映射、聚合的过程,比如将一堆数据按key值分类聚合,就会触发shuffle行为。
在具体实现参数优化时,如果需要修改参数,则可以通过正则替换直接在原参数上替换、修改。
步骤304,基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优。
其中,Hive是一个数据仓库工具,用来进行数据提取、转化、加载。
本步骤中基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优的方式给出如下两种实现方式,但是不限于如下两种:
第一种:
第一步、根据数据划分字段将代码划分为多个stage存储到一个stages列表B。
具体实现时,从后向前扫描spark代码,当扫描到shuffle语句时,将之前的代码划分到一个stage里,将划分出的多个stage存储到一个stages列表B。
本申请实施例中具体实现时,可以将stages信息存储到一个链表中,如链表A,则列表B的长度和链表A的长度理论上是一致的,可以更容易获取对应stage。
第二步、通过正则匹配确定stages列表B中有写hive行为的stage,并获取所述stage在所述stages信息中对应的数据输出量O。
正则匹配代码中含有”insert into”、”insert overwrite”、”.write(*)”的stage,认定为有写hive行为的stage。
第三步、计算hive的线程数T为O与Y的比值。
其中,所述Y为1个线程写的预设值数据,即预设一个线程写YGB数据。
具体实现是,Y的值可以根基实际需要设置,如设为1,对此不进行限制。
第四步、通过正则匹配出所述写hive行为,更新线程数为T。
具体实现时通过正则匹配出所述写hive行为所读的dataframe,为所述dataframe添加.repartition(T)操作。
到此完成了最优写hive数据线程数目设定。
第二种:
预先在Spark任务的代码的写hive的分区数进行变量标记。
具体实现为:预先在Spark任务的代码中写hive代码所读的repartition里用OptimizationNum[N]进行变量标记,其中OptimizationNum[N]为repartition中的变量。
所述基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优,包括:
第一步、根据数据划分字段将代码划分为多个stage存储到一个stages列表B。
具体实现可以为:从后向前扫描spark代码,当扫描到数据划分(shuffle)语句时,将之前的代码划分到一个stage里,将划分出的多个stage存储到一个stages列表B;
本申请实施例中具体实现时,可以将stages信息存储到一个链表中,如链表A,则列表B的长度和链表A的长度理论上是一致的,可以更容易获取对应stage。
第二步、若确定stages列表B中的stage里存在变量标记,则确定所述stage中有写hive行为;取所述stage在所述stages信息中对应的数据输出量O。
通过正则匹配含有”OptimizationNum[N]”的stage,即可认定为有写hive行为的stage。
其中OptimizationNum[N]是一个变量,[N]是数字,多个写hive行为后可以通过递增N的值来区分,比如:OptimizationNum1、OptimizationNum2。
第三步、计算hive的线程数T为O与Y的比值,其中,所述Y为1个线程写的预设值数据。
其中,所述Y为1个线程写的预设值数据,即预设一个线程写YG数据。
具体实现是,Y的值可以根基实际需要设置,如设为1,对此不进行限制。
第四步、使用所述线程数T对标记变量进行正则替换。
具体实现时,通过正则替换,将OptimizationHum[N]替换为计算出的对应的T值。
到此完成了最优写hive数据线程数目设定。
步骤305,将调优后的Spark任务提交到运行设备上,通过运行结果验证调优效果。
步骤306,当验证调优结果达到预设效果时,使用调优后的参数进行资源配置。
若调优结果未达到预设效果时,再次进行调优,直到调优结果达到预设效果。
本申请实施例中通过调用API获取JSON信息,分析获得stages信息,基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优,基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优;还可以验证调优效果,当验证调优结果达到预设效果时,使用调优后的参数进行资源配置,取代人力从Spark WebUI查看和分析的工作。该方案能够在节省成本的前提下自动进行参数调优,以提高资源配置效率。
在参数和程序调优时,可以调优申请服务器的数目、线程调度、shuffle性能等;并且通过正则替换直接修改代码,取代人力分析和代码修改工作。
基于同样的发明构思,本申请实施例中还提供一种任务调优装置。参见图4,图4为本申请实施例中应用于上述技术的装置结构示意图。所述装置包括:获取单元401、分析生成单元402、调优单元403和配置单元404;
获取单元401,用于在Spark任务运行之后,通过执行脚本调用Spark API获取所述Spark任务对应的JSON信息;
分析生成单元402,用于分析获取单元401获取的JSON信息获取stage的信息,生成stages信息;
调优单元403,用于基于分析生成单元402生成的stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优;
配置单元404,用于使用调优单元403调优后的参数进行资源配置。
其中,所述装置进一步包括:存储单元405;
存储单元405,用于将分析生成单元402生成的stages信息使用stages链表进行存储;其中,所述链表的每个节点是一个stage对象。
其中,
调优单元403,具体用于基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优时,包括:获取输入数据量最大的stage;并以所述stage的输入数据量以GB为单位向上取整,获得所述Spark任务所需内存估值MGB;计算M与K的比值H,以及H与L的比值C;其中,KGB为预设一个分区处理的数据量,L为预设一个核core处理分区的个数;获取M和C的公约数;选择一个公约数D作为申请服务器的数目;其中,M/D的值属于设置的内存容量范围,C/D的值属于设置的core数量范围。
其中,
调优单元403,进一步用于分析所述JSON信息获取所述stage的数量;若stage的数量大于预设数量值,则优化线程调度。
其中,
调优单元403,进一步用于若确定所述stages信息中有数据划分字段,则优化数据划分性能。
其中,调优单元403,进一步用于基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优。
其中,
调优单元403,具体用于基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优时,包括:根据数据划分字段将代码划分为多个stage存储到一个stages列表B;通过正则匹配确定stages列表B中有写hive行为的stage,并获取所述stage在所述stages信息中对应的数据输出量O;计算hive的线程数T为O与Y的比值,其中,所述Y为1个线程写的预设值数据;通过正则匹配出所述写hive行为,更新线程数为T。
配置单元404,用于预先在Spark任务的代码的写hive的分区数进行变量标记;
调优单元403,具体用于基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优时,包括:根据数据划分字段将代码划分为多个stage存储到一个stages列表B;若确定stages列表B中的stage里存在变量标记,则确定所述stage中有写hive行为;取所述stage在所述stages信息中对应的数据输出量O;计算hive的线程数T为O与Y的比值,其中,所述Y为1个线程写的预设值数据;使用所述线程数T对标记变量进行正则替换。
其中,所述装置进一步包括:提交单元406;
提交单元406,用于将调优单元403将调优后的Spark任务提交到运行设备上,通过运行结果验证调优效果。
上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
在另一个实施例中,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述资源配置方法的步骤。
在另一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时可实现所述资源配置方法中的步骤。
图5为本发明实施例提供的一种电子设备的实体结构示意图。如图5所示,该电子设备可以包括:处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行如下方法:
在Spark任务运行之后,通过执行脚本调用Spark应用程序接口API获取所述Spark任务对应的对象简谱JSON信息;
分析所述JSON信息生成stages信息;
基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优;
使用调优后的参数进行资源配置。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种资源配置方法,其特征在于,所述方法包括:
在Spark任务运行之后,通过执行脚本调用Spark应用程序接口API获取所述Spark任务对应的对象简谱JSON信息;
分析所述JSON信息生成stages信息;
基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优;
使用调优后的参数进行资源配置。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
将生成的stages信息使用stages链表进行存储;其中,所述链表的每个节点是一个stage对象。
3.根据权利要求1所述的方法,其特征在于,所述基于所述stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优,包括:
获取输入数据量最大的stage;并以所述stage的输入数据量以GB为单位向上取整,获得所述Spark任务所需内存估值MGB;
计算M与K的比值H,以及H与L的比值C;其中,KGB为预设一个分区处理的数据量,L为预设一个核core处理分区的个数;
获取M和C的公约数;
选择一个公约数D作为申请服务器的数目;其中,M/D的值属于设置的内存容量范围,C/D的值属于设置的core数量范围。
4.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:
分析所述JSON信息获取所述stage的数量;
若stage的数量大于预设数量值,则优化线程调度。
5.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:
若stages信息中有数据划分字段,则优化数据划分性能。
6.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优。
7.根据权利要求6所述的方法,其特征在于,所述基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优,包括:
根据数据划分字段将代码划分为多个stage存储到一个stages列表B;
通过正则匹配确定stages列表B中有写hive行为的stage,并获取所述stage在所述stages信息中对应的数据输出量O;
计算hive的线程数T为O与Y的比值,其中,所述Y为1个线程写的预设值数据;
通过正则匹配出所述写hive行为,更新线程数为T。
8.根据权利要求6所述的方法,其特征在于,所述方法进一步包括:
预先在Spark任务的代码的写hive的分区数进行变量标记;
所述基于所述stages信息优化写hive表的线程数对所述Spark任务进行程序调优,包括:
根据数据划分字段将代码划分为多个stage存储到一个stages列表B;
若确定stages列表B中的stage里存在变量标记,则确定所述stage中有写hive行为;取所述stage在所述stages信息中对应的数据输出量O;
计算hive的线程数T为O与Y的比值,其中,所述Y为1个线程写的预设值数据;
使用所述线程数T对标记变量进行正则替换。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法进一步包括:
将调优后的Spark任务提交到运行设备上,通过运行结果验证调优效果。
10.一种资源配置装置,其特征在于,所述装置包括:获取单元、分析生成单元、调优单元和配置单元;
所述获取单元,用于在Spark任务运行之后,通过执行代码调用Spark应用程序接口API获取所述Spark任务对应的对象简谱JSON信息;
所述分析生成单元,用于分析所述获取单元获取的JSON信息获取stage的信息,生成stages信息;
所述调优单元,用于基于所述分析生成单元生成的stages信息通过预估spark任务处理的数据量对所述Spark任务进行参数调优;
所述配置单元,用于使用所述调优单元调优后的参数进行资源配置。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-9任一项所述的方法。
CN202010992982.2A 2020-09-21 2020-09-21 一种资源配置方法和装置 Active CN113760489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010992982.2A CN113760489B (zh) 2020-09-21 2020-09-21 一种资源配置方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010992982.2A CN113760489B (zh) 2020-09-21 2020-09-21 一种资源配置方法和装置

Publications (2)

Publication Number Publication Date
CN113760489A true CN113760489A (zh) 2021-12-07
CN113760489B CN113760489B (zh) 2024-05-17

Family

ID=78785836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010992982.2A Active CN113760489B (zh) 2020-09-21 2020-09-21 一种资源配置方法和装置

Country Status (1)

Country Link
CN (1) CN113760489B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205206A1 (en) * 2003-02-19 2004-10-14 Naik Vijay K. System for managing and controlling storage access requirements
CN105868019A (zh) * 2016-02-01 2016-08-17 中国科学院大学 一种Spark平台性能自动优化方法
CN108255689A (zh) * 2018-01-11 2018-07-06 哈尔滨工业大学 一种基于历史任务分析的Apache Spark应用自动化调优方法
WO2018126964A1 (zh) * 2017-01-04 2018-07-12 中兴通讯股份有限公司 任务执行方法、装置和服务器
CN108762921A (zh) * 2018-05-18 2018-11-06 电子科技大学 一种Spark集群系统的在线优化分区的任务调度方法及装置
CN110928666A (zh) * 2019-12-09 2020-03-27 湖南大学 一种Spark环境中基于内存优化任务并行度的方法和系统
US20200151170A1 (en) * 2018-11-14 2020-05-14 Baidu Online Network Technology (Beijing) Co., Ltd. Spark query method and system supporting trusted computing
CN111367591A (zh) * 2020-03-30 2020-07-03 中国工商银行股份有限公司 Spark任务处理方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205206A1 (en) * 2003-02-19 2004-10-14 Naik Vijay K. System for managing and controlling storage access requirements
CN105868019A (zh) * 2016-02-01 2016-08-17 中国科学院大学 一种Spark平台性能自动优化方法
WO2018126964A1 (zh) * 2017-01-04 2018-07-12 中兴通讯股份有限公司 任务执行方法、装置和服务器
CN108255689A (zh) * 2018-01-11 2018-07-06 哈尔滨工业大学 一种基于历史任务分析的Apache Spark应用自动化调优方法
CN108762921A (zh) * 2018-05-18 2018-11-06 电子科技大学 一种Spark集群系统的在线优化分区的任务调度方法及装置
US20200151170A1 (en) * 2018-11-14 2020-05-14 Baidu Online Network Technology (Beijing) Co., Ltd. Spark query method and system supporting trusted computing
CN110928666A (zh) * 2019-12-09 2020-03-27 湖南大学 一种Spark环境中基于内存优化任务并行度的方法和系统
CN111367591A (zh) * 2020-03-30 2020-07-03 中国工商银行股份有限公司 Spark任务处理方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIU, LM 等: "Microstructure and mechanical properties of the spark plasma sintered TaC/SiC composites", MATERIALS SCIENCE AND ENGINEERING A-STRUCTURAL MATERIALS PROPERTIES MICROSTRUCTURE AND PROCESSING, 30 November 2011 (2011-11-30) *
唐九飞;李鹤;于俊清;: "面向X86多核处理器的数据流程序任务调度与缓存优化", 中国科学技术大学学报, no. 03, 15 March 2016 (2016-03-15) *
陈侨安;李峰;曹越;龙明盛;: "基于运行数据分析的Spark任务参数优化", 计算机工程与科学, no. 01, 15 January 2016 (2016-01-15) *

Also Published As

Publication number Publication date
CN113760489B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
US11632422B2 (en) Automated server workload management using machine learning
Wang et al. Performance prediction for apache spark platform
Marcu et al. Spark versus flink: Understanding performance in big data analytics frameworks
Shi et al. Mrtuner: a toolkit to enable holistic optimization for mapreduce jobs
US20180285417A1 (en) Intelligent query parameterization of database workloads
CN107612886B (zh) 一种Spark平台Shuffle过程压缩算法决策方法
US9383982B2 (en) Data-parallel computation management
JP5990192B2 (ja) データストアにおけるクエリーデータのフィルタリング
CN108197306B (zh) Sql语句处理方法、装置、计算机设备和存储介质
CN109886859B (zh) 数据处理方法、系统、电子设备和计算机可读存储介质
JP2010524060A (ja) 分散コンピューティングにおけるデータマージング
US8898677B2 (en) Data arrangement calculating system, data arrangement calculating method, master unit and data arranging method
CN105493095A (zh) 用于样本提交的自适应和递归过滤
US20160253172A1 (en) Indicating a trait of a continuous delivery pipeline
CN104834599A (zh) Web安全检测方法和装置
JP6129290B1 (ja) 分散計算におけるアプリケーションパラメータ設定およびシステム仕様設定を推奨する方法およびシステム
CN111475564A (zh) 一种流式数据处理方法、系统、计算机设备及存储介质
CN106557307B (zh) 业务数据的处理方法及处理系统
CN111949832A (zh) 批量作业依赖关系的解析方法及装置
CN114091029B (zh) 恶意文件检测模型的训练系统、方法、设备、介质及平台
US20180113729A1 (en) Category based execution scheduling
CN108073582B (zh) 一种计算框架选择方法和装置
CA3148489A1 (en) Method of and device for assessing data query time consumption, computer equipment and storage medium
CN109165201B (zh) 日志的归并方法及终端设备
CN113760489A (zh) 一种资源配置方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant