CN110928721B - 任务执行方法与装置、电子设备、存储介质 - Google Patents

任务执行方法与装置、电子设备、存储介质 Download PDF

Info

Publication number
CN110928721B
CN110928721B CN202010085756.6A CN202010085756A CN110928721B CN 110928721 B CN110928721 B CN 110928721B CN 202010085756 A CN202010085756 A CN 202010085756A CN 110928721 B CN110928721 B CN 110928721B
Authority
CN
China
Prior art keywords
execution
memory
task
executor
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010085756.6A
Other languages
English (en)
Other versions
CN110928721A (zh
Inventor
龙下洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiyiyun Technology Co ltd
Original Assignee
Beijing Yiyiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yiyiyun Technology Co ltd filed Critical Beijing Yiyiyun Technology Co ltd
Publication of CN110928721A publication Critical patent/CN110928721A/zh
Application granted granted Critical
Publication of CN110928721B publication Critical patent/CN110928721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本公开涉及一种基于Spark的任务执行方法与装置、电子设备、计算机可读存储介质,属于大数据技术领域。该方法包括:在Spark系统中执行循环过程,直至目标任务的执行状态为执行成功;其中,循环过程包括:在当前执行器中执行目标任务,并获取目标任务的执行状态;当确定执行状态属于执行失败时,重新创建执行器;将重新创建的执行器作为当前执行器以执行目标任务。本公开可以将失败的任务重新分配到重新创建的执行器中,保障作业的稳定运行。

Description

任务执行方法与装置、电子设备、存储介质
本申请要求于2020年1月22日提交中国专利局、申请号为2020100757286发明名称为“任务执行方法与装置、电子设备、存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本公开涉及大数据技术领域,尤其涉及一种基于Spark的任务执行方法与装置、电子设备、计算机可读存储介质。
背景技术
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,Spark 作业时,如果当前执行器出现内存溢出,需要在其他执行器中不断重试,浪费时间。并且,在重试过程中任务执行失败的概率较高,作业运行的稳定性较低。
发明内容
本公开的目的在于提供一种基于Spark的任务执行方法与装置、电子设备、计算机可读存储介质,进而至少在一定程度上克服由于现有技术的限制和缺陷而导致的在出现内存溢出的情况下,重试过程中任务执行失败的概率较高,作业运行的稳定性较低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种基于Spark的任务执行方法,包括:
在Spark系统中执行循环过程,直至目标任务的执行状态为执行成功;其中,所述循环过程包括:
在当前执行器中执行所述目标任务,并获取所述目标任务的执行状态;
当确定所述执行状态属于执行失败时,重新创建执行器;
将重新创建的执行器作为所述当前执行器以执行所述目标任务。
可选的,在确定所述执行状态属于执行失败之后,所述方法还包括:
当确定失败原因属于内存溢出时,执行所述重新创建执行器的步骤,并动态扩展重新创建的执行器的内存。
可选的,在确定所述执行状态属于执行失败之后,且在确定失败原因属于内存溢出之前,所述方法还包括:
判断所述执行状态属于执行失败的次数是否大于预设次数;
当所述执行状态属于执行失败的次数不大于所述预设次数时,获取失败原因;
当所述执行状态属于执行失败的次数大于所述预设次数时,确定所述目标任务执行失败。
可选的,本公开实施例的基于Spark的任务执行方法,还包括:
在重新创建执行器时,开启扩展内存开关,以使用户对扩展参数进行配置。
可选的,所述动态扩展重新创建的执行器的内存,包括:
获取当前执行器的内存以及用户对所述扩展参数配置的参数值;
根据当前执行器的内存、所述执行状态属于执行失败的次数以及所述参数值,扩展重新创建的执行器的内存。
可选的,所述根据当前执行器的内存、所述执行状态属于执行失败的次数以及所述参数值,扩展重新创建的执行器的内存,包括:
将当前执行器的内存、执行失败的次数以及所述参数值的乘积,与当前执行器的内存之和作为重新创建的执行器的内存。
可选的,所述参数值和所述当前执行器的内存呈负相关。
可选的,在将重新创建的执行器作为所述当前执行器以执行所述目标任务之前,本公开实施例的基于Spark的任务执行方法,还包括:
将所述目标任务的执行状态修改为等待执行,并将所述目标任务添加至任务队列中。
根据本公开的第二方面,提供一种基于Spark的任务执行装置,包括:
任务执行模块,用于在Spark系统中执行循环过程,直至目标任务的执行状态为执行成功;其中,所述循环过程包括:
在当前执行器中执行所述目标任务,并获取所述目标任务的执行状态;
当确定所述执行状态属于执行失败时,重新创建执行器;
将重新创建的执行器作为所述当前执行器以执行所述目标任务。
可选的,所述任务执行模块包括:
创建单元,用于当失败原因属于内存溢出时,执行所述重新创建执行器的步骤,并动态扩展重新创建的执行器的内存。
可选的,本公开实施例的基于Spark的任务执行装置,还包括:
失败次数判断模块,用于判断所述执行状态属于执行失败的次数是否大于预设次数;
失败原因获取模块,用于当所述执行状态属于失败次数判断模块确定所述执行失败的次数不大于所述预设次数时,获取失败原因;
任务执行失败确定模块,用于当所述执行状态属于失败次数判断模块确定所述执行失败的次数大于所述预设次数时,确定所述目标任务执行失败。
可选的,本公开实施例的基于Spark的任务执行装置,还包括:
扩展内存开关开启模块,用于在重新创建执行器时,开启扩展内存开关,以使用户对扩展参数进行配置。
可选的,所述创建单元通过下述步骤实现动态扩展重新创建的执行器的内存:
获取当前执行器的内存以及用户对所述扩展参数配置的参数值;
根据当前执行器的内存、所述执行状态属于执行失败的次数以及所述参数值,扩展重新创建的执行器的内存。
可选的,所述创建单元通过下述步骤实现根据当前执行器的内存、所述执行状态属于执行失败的次数以及所述参数值,扩展重新创建的执行器的内存:
将当前执行器的内存、执行失败的次数以及所述参数值的乘积,与当前执行器的内存之和作为重新创建的执行器的内存。
可选的,所述参数值和所述当前执行器的内存呈负相关。
可选的,本公开实施例的基于Spark的任务执行装置,还包括:
任务状态修改模块,用于将所述目标任务的执行状态修改为等待执行,并将所述目标任务添加至任务队列中。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开的示例性实施例具有以下有益效果:
本公开的示例性实施例提供的基于Spark的任务执行方法及装置中,在Spark运行时任务执行失败时,可以重新创建新的执行器,将执行失败的任务分配到重新创建的执行器中,保障作业的稳定运行。一方面,可以避免人为调试内存并不断重试,节省调试及重试时间。另一方面,在内存资源分配较少的情况下,通过动态增加内存完成作业,可以降低资源的浪费。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了Spark的基本架构示意图;
图2示出了相关技术中Spark作业的运行流程图;
图3(a)示出了本公开实施例中基于Spark的任务执行方法的一种流程图;
图3(b)示出了本公开实施例中基于Spark的任务执行方法的又一种流程图;
图4示出了本公开实施例中基于Spark的任务执行方法的又一种流程图;
图5示出了本公开实施例中Spark作业的运行流程图;
图6示出了本公开实施例中创建执行器的一种流程图;
图7示出了本公开实施例中基于Spark的任务执行装置的一种结构示意图;
图8示出了用于实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
需要说明的是,本公开中,用语“包括”、“配置有”、“设置于”用以表示开放式的包括在内的意思,并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”等仅作为标记使用,不是对其对象数量或次序的限制。
Spark是大数据处理的引擎,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark的基本架构可参见图1,驱动程序(DriverProgram)表示为main()函数,可以创建SparkContext(是Spark程序的入口)。由SparkContext负责与ClusterManager(集群管理器)通信,进行资源的申请,任务的分配和监控等,程序执行完毕后关闭SparkContext。工作(Worker)节点指集群中可以运行应用程序代码的节点。执行器(Executor)为某个应用程序运行在工作节点上的一个进程,该进程负责运行某些任务(例如,统计文本中的词频等),并且负责将数据存在内存或者磁盘上。一个集群一般包含多个执行器,每个执行器接收 Driver的命令执行任务,一个执行器可以执行一至多个任务。
其中,Spark的基本运行流程如下:
以SparkContext为程序运行的总入口,在SparkContext的初始化过程中,Spark会分别创建DAGScheduler作业和TaskScheduler任务调度两级调度模块。其中,作业调度模块是基于任务阶段的高层调度模块,它为每个Spark作业计算具有依赖关系的多个调度阶段(通常根据shuffle来划分),并为每个阶段构建出一组具体的任务(通常会考虑数据的本地性等),然后以TaskSets(任务组)的形式提交给任务调度模块来具体执行。而任务调度模块则负责具体启动任务、监控和汇报任务运行情况。
Spark on Yarn(作业调度服务)模式下,作业运行时需要指定Driver内存,执行器堆内存,堆外内存,并在执行过程中,所有分配的任务将分发到已经指定好内存的执行器中运行。但是Spark在作业提交初始化后内存资源被配置为固定值,如果不了解集群资源情况和作业执行需要的准确内存,往往会因为资源不够用出现内存溢出的情况。
参见图2,图2示出了相关技术中Spark作业的运行流程图,包括以下步骤:
步骤S201,用户提交作业,并初始化SparkContext。
步骤S202,SparkContext初始化创建SparkEnv,确定执行器的环境和内存等,并创建TaskScheduler、SchedulerBackend和DAGScheduler。
其中,SparkEnv是Spark的执行环境对象,其中包括与众多执行器执行相关的对象。Spark 对任务的计算都依托于 执行器的能力,所有的执行器都有自己的Spark 的执行环境SparkEnv。有了SparkEnv,就可以将数据存储在存储体系中,利用计算引擎对计算任务进行处理,可以在节点间进行通信等。
步骤S203,TaskSchedulerImpl启动,并启动SchedulerBackend(调度后端)。
其中,TaskSchedulerImpl的主要作用是调度任务,内部通过调度后端进行实际任务的传输。不同的集群类型对应不同的具体的调度后端的实现,例如本地模式的调度后端实现是LocalSchedulerBackend,而任务调度器的实现只有一种就是TaskSchedulerImpl。TaskSchedulerImpl主要处理一些通用的逻辑,例如在多个作业之间决定调度顺序,执行推测执行的逻辑等等。
步骤S204,执行作业在用户程序段提交Action算子后向SparkContext提交作业流程,SparkContext调用一系列的runJob后,最后提交到DAGScheduler。
Action算子也叫做行动算子,例如foreach、collect、count等。Action算子是触发执行,即Action算子可以触发对应job的运行。一个应用程序中有几个Action算子执行,就有几个job运行。
步骤S205,DAGScheduler开始根据RDD(弹性分布式数据集)的宽依赖、窄依赖划分Stage并提交Stage,其中,多个任务组成一个Stage,最后调用TaskSchedulerImpl中的runTask开始提交任务。
步骤S206,TaskSchedulerImpl调用submitTask。
步骤S207,CoarseGrainedSchedulerBackend给执行器分配资源。
其中,由于SchedulerBackend是CoarseGrainedSchedulerBackend的父类,因此,CoarseGrainedSchedulerBackend可以继承SchedulerBackend。
步骤S208,CoarseGrainedSchedulerBackend调用launchTask通过远程过程调用发放给各个执行器。
步骤S209,通过CoarseGrainedExecutorBackend接收到CoarseGrainedSchedulerBackend发送的launchTask,然后由执行器实现TaskRunner线程并执行任务。
其中,CoarseGrainedExecutorBackend是执行器中的一个类,用于启动执行器,分发任务到执行器,与Driver端通信等。
步骤S210,在任务执行过程中,由CoarseGrainedExecutorBackend调用statusUpdate更新任务的执行状态。
步骤S211,任务执行完毕后将任务的执行状态返回给TaskSchedulerImpl。
步骤S212,由TaskResultGetter接收任务的执行结果。TaskResultGetter 用一个线程池来获取远程任务结果,并且把结果反序列化。
步骤S213,任务执行失败时进行任务重试,TaskSetManager(任务设置管理器)记录任务的重试次数,任务执行成功时TaskSetManager修改其执行状态。
可以看出,Spark 作业时,在指定执行器的内存后,整个运行作业中将不变。由于用户无法准确判断将使用多少内存,往往先用一个默认值,如果默认值较小,在任务因为内存溢出执行失败时,可以将当前执行器 删除,在其他执行器上不断重试。由于无法估计将增加多少内存才能运行成功,因此在调试上将浪费较多时间。并且,重试时出现任务失败的概率较高,作业运行的稳定性较低。如果默认值较大,作业占用大部分内存而浪费资源。
为了解决上述问题,本公开实施例提供了一种基于Spark的任务执行方法与装置、电子设备、计算机可读存储介质,可以使因为内存溢出导致任务执行失败的风险降低,提高作业运行的稳定性。
下面首先对本公开实施例的基于Spark的任务执行方法进行详细介绍。
参见图3(a),图3(a)示出了本公开实施例中基于Spark的任务执行方法的一种流程图,可以包括以下步骤:
步骤S301,在当前执行器中执行目标任务时,获取目标任务的执行状态,并判断执行状态是否属于执行失败。若执行状态属于执行失败,则执行步骤S302;否则,执行步骤S304。
步骤S302,重新创建执行器。
步骤S303,将重新创建的执行器作为当前执行器,并在当前执行器中执行目标任务。
步骤S304,确定执行状态属于执行成功,流程结束。
本公开实施例的任务执行方法中,在Spark运行时目标任务失败的情况下,可以重新创建新的执行器,将执行失败的目标任务分配到新的执行器中,保障作业的稳定运行。
图3(b)示出了本公开实施例中基于Spark的任务执行方法的又一种流程图,可以包括以下步骤:
步骤S310,在当前执行器中执行目标任务时,获取目标任务的执行状态,并判断执行状态是否属于执行失败。若执行状态属于执行失败,则执行步骤S320;否则,执行步骤S340。
步骤S320,在确定失败原因属于内存溢出时,重新创建执行器,并动态扩展重新创建的执行器的内存。
步骤S330,将重新创建的执行器作为当前执行器,并在当前执行器中执行目标任务,返回步骤S310。
步骤S340,确定执行状态属于执行成功,流程结束。
本公开实施例的任务执行方法中,在Spark运行时报内存溢出时,可以重新创建新的增加内存的执行器,将执行失败的目标任务分配到增加内存的执行器中,保障作业的稳定运行。一方面,可以避免人为调试内存并不断重试,节省调试及重试时间。另一方面,在内存资源分配较少的情况下,通过动态增加内存完成作业,可以降低资源的浪费。
参见图4,图4示出了本公开实施例中基于Spark的任务执行方法的又一种流程图,可以包括以下步骤:
步骤S410,在当前执行器中执行目标任务时,获取目标任务的执行状态。
本公开实施例中,目标任务是用户要执行的任务,目标任务的执行状态可以包括:failed、kill、lost、success等,上述执行状态可以是预先定义的,用于描述目标任务的执行情况。其中,failed表示目标任务执行失败,kill表示执行器删除、lost表示执行器丢失,均属于执行失败,success属于执行成功。
步骤S420,判断目标任务的执行状态是否属于执行失败。
在执行状态属于执行失败时,执行步骤S430。否则,执行步骤S470。
步骤S430,判断执行状态属于执行失败的次数是否大于预设次数。
具体的,在目标任务执行失败要进行重试时,通常要满足一定的重试标准。例如,目标任务执行失败时通常不能无限次地重试,可以设置重试的最大次数,即预设次数。例如,预设次数可以是3、4或5等,可以根据实际情况进行设定。在执行失败的次数不大于预设次数时,执行步骤S440;在执行失败的次数大于预设次数时,执行步骤S460。
步骤S440,获取失败原因,在失败原因属于内存溢出时,重新创建执行器,并动态扩展重新创建的执行器的内存。
本公开实施例中,在执行状态属于执行失败时,每种执行状态还可以对应有失败原因。例如,失败原因可以是内存溢出、环境问题、代码问题、网络问题等。如果失败原因属于内存溢出,可以将当前执行器删除,并重新创建新的执行器。
可以理解的是,重新创建的执行器的内存要大于当前执行器的内存,也就是要进行内存扩展。因此,在重新创建执行器时,可以开启扩展内存开关,以使用户对扩展参数进行配置。其中,扩展参数表示内存扩展的比例,扩展参数的参数值越大,表示内存扩展的越多;扩展参数的参数值越小,表示内存扩展的越少。可选的,参数值可以和当前执行器的内存呈负相关。也就是,如果当前执行器的内存较大时,可以扩展较少的内存;如果当前执行器的内存较小时,可以扩展较多的内存。这样,可以在满足需求的同时,避免资源浪费。
在本公开的一种示例性实施例中,可以获取当前执行器的内存以及用户对扩展参数配置的参数值,以及执行失败的次数;根据当前执行器的内存、执行失败的次数以及参数值,扩展重新创建的执行器的内存。
本公开实施例中,在扩展内存时,还可以根据执行失败的次数进行扩展。也就是,可以以递增的方式进行扩展,执行失败的次数越多,所扩展的内存也越大。可选的,可以将当前执行器的内存、执行失败的次数以及参数值的乘积,与当前执行器的内存之和作为重新创建的执行器的内存。
举例而言,开启扩展内存开关后,用户配置的扩展参数的参数值为0.5,如果当前执行器的内存为10G,执行失败后,重新创建的执行器的内存=参数值×执行失败的次数×当前执行器的内存+当前执行器的内存。因此,第一次重新创建的执行器的内存=0.5×1×10+10=15G;第二次重新创建的执行器的内存= 0.5×2×10+10=20G。
步骤S450,将重新创建的执行器作为当前执行器,并在当前执行器中执行目标任务,返回步骤S410,直至目标任务的执行状态为执行成功。
步骤S460,确定目标任务执行失败。
步骤S470,确定执行状态属于执行成功,流程结束。
需要说明的是,在重新执行目标任务之前,还可以将目标任务的执行状态修改为等待执行,并将目标任务添加至任务队列中,以在重新创建的执行器中执行该目标任务。
参见图5,图5示出了本公开实施例中Spark作业的运行流程图,包括以下步骤:
步骤S501,任务在执行器中执行时,在线程池中执行TaskRunner。
步骤S502,在TaskRunner中,最终调用task(ShuffleMapTask/ ResultTask)的runTask开始执行任务。
步骤S503,TaskRunner收集任务的执行状态(failed、kill、lost等)并传回失败原因,通过CoarseGrainedExecutorBackend中statusUpdate()开始向Driver端TaskScheulerImpl传回任务的执行状态。
步骤S504,在TaskSchedulerImpl中的statusUpdate()接收任务的执行状态并判断。
步骤S505,在TaskSchedulerImpl中statusUpdate()调用TaskResultGetter的enqueueFailedTask()判断任务执行失败或成功。
步骤S506,若任务执行失败,则调用TaskSchedulerImpl中handleFailedTask。
步骤S507,调用TaskSetManager修改任务的执行状态,准备重试。
步骤S508,如果达到重试标准,则在TaskSchedulerImpl中启动动态资源扩展,并调用ExecutorAddManager重新申请资源,创建新的执行器重新规划其内存设置。
步骤S509,分配资源准备提交。
步骤S510,通过DriverEndpoint发送任务,获取重新创建的执行器,向TaskSchedulerImpl执行分配。
步骤S511,将执行失败的任务重新分配到重新创建的执行器中,并将相关消息发送到其他执行器中。
步骤S512,接收重新提交的失败TaskSet,其中,Taskset 是一批执行任务的类。
步骤S513,重试执行失败的TaskSet。
在步骤S508中,可以看到,重新创建执行器时,可以启动动态资源扩展,以增加重新创建的执行器的内存。执行器的创建过程可参见图6,包括以下步骤:
步骤S601,获取并判断任务执行失败的次数。
该步骤与步骤S506相同,若任务执行失败,则调用TaskSchedulerImpl中handleFailedTask,通过handleFailedTask获取任务执行失败的次数,并判断任务执行失败的次数是否不大于预设次数。
步骤S602,在执行失败的次数不大于预设次数时,发送启动扩展执行器内存的消息。
步骤S603,通过调用ExecutorAddManager中的addExecutor(),增加执行器。
步骤S604,在ApplicationMaster中开启扩展内存开关isAddMemory以对扩展参数addMemoryPercentage进行配置。
其中,ApplicationMaster是spark 作业提交启动应用程序。
步骤S605,YarnAllocator为重新创建的执行器申请分配资源。
步骤S606,启动新扩展的执行器并启动相应的CoarseGrainedExecutorBackend。
步骤S607,通过RegisteredExecutor()注册重新创建的执行器。
步骤S608,在CoarseGrainedSchedulerBackend 类中,通过新增方法makeOfferFailed,将执行失败的任务分配到重新创建的增加内存的执行器中,其中,DriverEndpoint是CoarseGrainedSchedulerBackend 中的类,makeOfferFailed可以是DriverEndpoint中的方法。
步骤S609,为重新创建的执行器分配资源。
可见,本公开实施例的任务执行方法,在Spark运行时报内存溢出时,可以将当前执行器删除,并在任务执行失败的次数小于预设次数时,重新创建新的增加内存的执行器,将执行失败的任务分配到增加内存的执行器中,保障作业的稳定运行。其中,可以根据用户配置的扩展参数的参数值、任务失败的次数以及当前执行器的内存,确定要扩展的内存,一方面,可以避免人为调试内存并不断重试,节省调试及重试时间。另一方面,在内存资源分配较少的情况下,通过动态增加内存完成作业,可以降低资源的浪费。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本示例实施方式中,还提供了一种基于Spark的任务执行装置700,参见图7,图7示出了本公开实施例的基于Spark的任务执行装置的一种结构示意图,包括:
任务执行模块710,用于在Spark系统中执行循环过程,直至目标任务的执行状态为执行成功;其中,该循环过程包括:
在当前执行器中执行目标任务,并获取目标任务的执行状态;
当确定执行状态属于执行失败时,重新创建执行器;
将重新创建的执行器作为当前执行器以执行目标任务。
可选的,任务执行模块710包括:
创建单元,用于当失败原因属于内存溢出时,执行重新创建执行器的步骤,并动态扩展重新创建的执行器的内存。
可选的,本公开实施例的基于Spark的任务执行装置,还包括:
失败次数判断模块,用于判断执行状态属于执行失败的次数是否大于预设次数;
失败原因获取模块,用于当失败次数判断模块确定执行状态属于执行失败的次数不大于预设次数时,获取失败原因;
任务执行失败确定模块,用于当失败次数判断模块确定执行状态属于执行失败的次数大于预设次数时,确定目标任务执行失败。
可选的,本公开实施例的基于Spark的任务执行装置,还包括:
扩展内存开关开启模块,用于在重新创建执行器时,开启扩展内存开关,以使用户对扩展参数进行配置。
可选的,创建单元通过下述步骤实现动态扩展重新创建的执行器的内存:
获取当前执行器的内存以及用户对扩展参数配置的参数值;
根据当前执行器的内存、执行状态属于执行失败的次数以及参数值,扩展重新创建的执行器的内存。
可选的,创建单元通过下述步骤实现根据当前执行器的内存、执行失败的次数以及参数值,扩展重新创建的执行器的内存:
将当前执行器的内存、执行失败的次数以及参数值的乘积,与当前执行器的内存之和作为重新创建的执行器的内存。
可选的,参数值和当前执行器的内存呈负相关。
可选的,本公开实施例的基于Spark的任务执行装置,还包括:
任务状态修改模块,用于将目标任务的执行状态修改为等待执行,并将目标任务添加至任务队列中。
上述装置中各模块/单元的具体细节在方法部分的实施例中已经详细说明,因此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行本示例实施方式中任一所述的方法。
图8示出了用于实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元801,其可以根据存储在只读存储器802中的程序或者从存储部分808加载到随机访问存储器803中的程序而执行各种适当的动作和处理。在随机访问存储器 803中,还存储有系统操作所需的各种程序和数据。中央处理单元801、只读存储器802以及随机访问存储器803通过总线804彼此相连。输入/输出接口805也连接至总线804。
以下部件连接至输入/输出接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元801执行时,执行本申请的装置中限定的各种功能。
在本公开的示例性实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
需要说明的是,本公开所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器、只读存储器、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频等等,或者上述的任意合适的组合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (8)

1.一种基于Spark的任务执行方法,其特征在于,所述方法包括:
在Spark系统中执行循环过程,直至目标任务的执行状态为执行成功;其中,所述循环过程包括:
在当前执行器中执行所述目标任务,并获取所述目标任务的执行状态;
当确定所述执行状态属于执行失败,且确定失败原因属于内存溢出时,重新创建执行器,并动态扩展重新创建的执行器的内存;其中,动态扩展重新创建的执行器内存,包括:获取所述当前执行器的内存、所述执行状态属于执行失败的次数以及用户对扩展参数配置的参数值;根据所述当前执行器的内存、所述执行状态属于执行失败的次数以及所述参数值,扩展重新创建的执行器的内存;
将所述重新创建的执行器作为所述当前执行器以执行所述目标任务。
2.根据权利要求1所述的方法,其特征在于,在确定所述执行状态属于执行失败之后,且在确定失败原因属于内存溢出之前,所述方法还包括:
判断所述执行状态属于执行失败的次数是否大于预设次数;
当所述执行状态属于执行失败的次数不大于所述预设次数时,获取失败原因;
当所述执行状态属于执行失败的次数大于所述预设次数时,确定所述目标任务执行失败。
3.根据权利要求1所述的方法,其特征在于,所述根据当前执行器的内存、所述执行状态属于执行失败的次数以及所述参数值,扩展重新创建的执行器的内存,包括:
将当前执行器的内存、所述执行状态属于执行失败的次数以及所述参数值的乘积,与当前执行器的内存之和作为重新创建的执行器的内存。
4.根据权利要求1所述的方法,其特征在于,所述参数值和所述当前执行器的内存呈负相关。
5.根据权利要求1所述的方法,其特征在于,在将重新创建的执行器作为所述当前执行器以执行所述目标任务之前,所述方法还包括:
将所述目标任务的执行状态修改为等待执行,并将所述目标任务添加至任务队列中。
6.一种基于Spark的任务执行装置,其特征在于,所述装置包括:
任务执行模块,用于在Spark系统中执行循环过程,直至目标任务的执行状态为执行成功;其中,所述循环过程包括:
在当前执行器中执行所述目标任务,并获取所述目标任务的执行状态;
当确定所述执行状态属于执行失败,且确定失败原因属于内存溢出时,重新创建执行器,并动态扩展重新创建的执行器的内存;其中,动态扩展重新创建的执行器内存,包括:获取所述当前执行器的内存、所述执行状态属于执行失败的次数以及用户对扩展参数配置的参数值;根据所述当前执行器的内存、所述执行状态属于执行失败的次数以及所述参数值,扩展重新创建的执行器的内存;
将所述重新创建的执行器作为所述当前执行器以执行所述目标任务。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~5任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~5任一项所述的方法。
CN202010085756.6A 2020-01-22 2020-02-11 任务执行方法与装置、电子设备、存储介质 Active CN110928721B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020100757286 2020-01-22
CN202010075728 2020-01-22

Publications (2)

Publication Number Publication Date
CN110928721A CN110928721A (zh) 2020-03-27
CN110928721B true CN110928721B (zh) 2020-06-19

Family

ID=69854429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010085756.6A Active CN110928721B (zh) 2020-01-22 2020-02-11 任务执行方法与装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN110928721B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778658A (zh) * 2020-09-29 2021-12-10 北京沃东天骏信息技术有限公司 任务分配方法及装置、电子设备、存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762086B2 (en) * 2016-09-01 2020-09-01 Amazon Technologies, Inc. Tracking query execution status for selectively routing queries
CN108062251B (zh) * 2018-01-09 2023-02-28 福建星瑞格软件有限公司 一种服务器资源回收方法以及计算机设备
CN109491841A (zh) * 2018-11-21 2019-03-19 南京安讯科技有限责任公司 一种提高Spark on yarn实时任务可靠性的方法
CN109684077A (zh) * 2018-12-05 2019-04-26 苏州思必驰信息科技有限公司 用于spark streaming的资源动态分配和反馈方法及装置
CN110647570B (zh) * 2019-09-20 2022-04-29 百度在线网络技术(北京)有限公司 数据处理方法、装置以及电子设备

Also Published As

Publication number Publication date
CN110928721A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN107016480B (zh) 任务调度方法、装置及系统
US11645122B2 (en) Method, device, and computer program product for managing jobs in processing system
CN110647332A (zh) 基于容器云的软件部署方法和装置
CN111190732A (zh) 定时任务处理系统及方法、存储介质和电子设备
KR102553440B1 (ko) 서버리스 개발 지원 플랫폼
CN110609755A (zh) 跨区块链节点的消息处理方法及装置、设备、介质
CN102968303A (zh) 程序设计系统和程序设计方法
CN110569113A (zh) 分布式任务的调度方法及系统、计算机可读存储介质
CN113032125A (zh) 作业调度方法、装置、计算机系统和计算机可读存储介质
WO2024082853A1 (zh) 高性能计算应用性能调优的方法及系统
CN113157411A (zh) 一种基于Celery的可靠可配置任务系统及装置
CN110928721B (zh) 任务执行方法与装置、电子设备、存储介质
CN111158800A (zh) 基于映射关系构建任务dag的方法及装置
CN114510317A (zh) 虚拟机管理方法、装置、设备及存储介质
CN114489989A (zh) 一种基于代理客户端并行调度的方法及系统
EP4024761A1 (en) Communication method and apparatus for multiple management domains
CN109144676A (zh) 一种应用程序的自启动检测方法、装置及服务器
US20090168092A1 (en) Job management and scheduling method for network system
CN111275389A (zh) 运维作业创建、管理方法和装置
CN111080250B (zh) 流程回退补偿方法、装置、存储介质及电子设备
CN114610413A (zh) 基于Java的同异步任务的执行方法、装置、设备及存储介质
CN114244894A (zh) 停复机业务处理方法、系统、计算机存储介质和电子设备
CN113419829A (zh) 作业调度方法、装置、调度平台及存储介质
US10713085B2 (en) Asynchronous sequential processing execution
CN112749193A (zh) 工作流的处理方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant