CN111581059A - 一种Spark应用监控方法、系统、设备和存储介质 - Google Patents

一种Spark应用监控方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN111581059A
CN111581059A CN202010386817.2A CN202010386817A CN111581059A CN 111581059 A CN111581059 A CN 111581059A CN 202010386817 A CN202010386817 A CN 202010386817A CN 111581059 A CN111581059 A CN 111581059A
Authority
CN
China
Prior art keywords
spark
spark application
application
monitoring
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010386817.2A
Other languages
English (en)
Inventor
刘明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Card Number Technology Co Ltd
Original Assignee
Shenzhen Card Number Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Card Number Technology Co Ltd filed Critical Shenzhen Card Number Technology Co Ltd
Priority to CN202010386817.2A priority Critical patent/CN111581059A/zh
Publication of CN111581059A publication Critical patent/CN111581059A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种Spark应用监控方法、系统、设备和存储介质。该Spark应用监控方法包括:在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用;在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况;若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。本发明实施例实现了Spark应用监控的智能化。

Description

一种Spark应用监控方法、系统、设备和存储介质
技术领域
本发明实施例涉及计算机技术,尤其涉及一种Spark应用监控方法、系统、设备和存储介质。
背景技术
Spark是一种大数据实时离线计算框架,Hadoop是一个分布式系统基础架构,Spark是一种与Hadoop相似的开源集群计算环境,但是Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。尽管创建Spark是为了支持分布式数据集上的迭代作业,但是实际上它是对Hadoop的补充,可以在Hadoop文件系统中并行运行。
现有Spark应用监控方案主要是,通过定时轮训Hadoop Yarn任务池的任务,再通过设定的模板解析目标任务的状态,然后根据解析得到的状态判断是否需要重启,如果需要重启则根据预置的启动命令模板拉起任务,必要时进行系统日志的记录和短信等渠道通知。这样可以有效提高实时任务的高可用性和系统的健壮性以及任务相关的可维护性,提高大数据处于过程的健壮性,最终避免任务因为失败而等待或者重复提交,提高大数据系统资源的利用率。
但是这个方法有明显的缺点和不足,一是不能对Spark Thrift Server应用进行有效的监控,因为Spark应用的任务是常驻在Hadoop Yarn任务池中,不能简单地通过轮询Hadoop Yarn任务池来实现对Spark Thrift Server应用的监控;二是没有动态自愈的方案,只是靠重启解决问题;三是没有异常日志的分析,不利于技术人员快速定位问题。
发明内容
本发明实施例提供一种Spark应用监控方法、系统、设备和存储介质,以实现Spark应用监控的智能化。
为达此目的,本发明实施例提供了一种Spark应用监控方法,该方法包括:
在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用;
在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况;
若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
进一步的,所述监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况包括:
监控所述Spark应用的阻塞延迟任务以得到所述阻塞延迟任务数量;
判断所述阻塞延迟任务数量是否大于第一阈值;
若所述阻塞延迟任务数量大于第一阈值,则所述Spark应用出现异常情况。
进一步的,所述监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况还包括:
监控所述Spark应用的重点Spark源码段、Spark用户代码段和Spark监听器总线以得到重点程序代码耗时;
判断所述重点程序代码耗时是否大于第二阈值;
若所述重点程序代码耗时大于第二阈值,则所述Spark应用出现异常情况。
进一步的,所述在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用包括:
判断是否需要开启智能监控;
若需要开启所述智能监控,在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用。
进一步的,所述判断是否需要开启智能监控之后包括:
若不需要开启所述智能监控,在所述Spark应用运行时轮询Hadoop Yarn任务池以判断所述Hadoop Yarn任务池中是否存在所述Spark应用的任务进程;
若所述Hadoop Yarn任务池中不存在所述任务进程,则记录当前的异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
进一步的,所述判断所述Hadoop Yarn任务池中是否存在所述Spark应用的任务进程之后包括:
若所述Hadoop Yarn任务池中存在所述任务进程,判断所述任务进程是否为SparkThrift Server应用的进程;
若所述任务进程为Spark Thrift Server应用的进程,按第一预设时间定时运行SQL数据库,并判断所述SQL数据库的运行时间是否超过第三阈值;
若所述SQL数据库的运行时间超过第三阈值,则记录当前的异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
进一步的,所述若所述SQL数据库的运行时间超过第三阈值之后包括:
根据预先配置的自愈命令重新启动所述Spark Thrift Server应用。
一方面,本发明实施例还提供了一种Spark应用监控系统,该系统包括:
代码添加模块,用于在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用;
应用监控模块,用于在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况;
邮件发送模块,用于若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
另一方面,本发明实施例还提供了一种Spark应用监控设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例提供的方法。
又一方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例提供的方法。
本发明实施例通过在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用;在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况;若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户,解决了Spark应用监控没有异常日志分析的问题,实现了Spark应用监控的智能化的效果。
附图说明
图1是本发明实施例一提供的一种Spark应用监控方法的流程示意图;
图2是本发明实施例二提供的一种Spark应用监控方法的流程示意图;
图3是本发明实施例三提供的一种Spark应用监控系统的结构示意图;
图4为本发明实施例四提供的一种Spark应用监控设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一模块称为第二模块,且类似地,可将第二模块称为第一模块。第一模块和第二模块两者都是模块,但其不是同一模块。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例一
如图1所示,本发明实施例一提供了一种Spark应用监控方法,该方法包括:
S110、在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用。
本实施例中,开发人员需要预先编写好智能监控代码,智能监控代码可以为JavaAgent代码,在启动Spark应用时,将Java Agent代码指定的jar包写入Spark应用,就完成了Spark应用监控的准备工作,在对Spark应用的源代码无侵入的情况下开始根据开发人员定义的监控项目开始监控。
S120、在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况。
S130、若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
本实施例中,在Spark应用开始运行后,将根据预先添加的智能监控代码开始监控Spark应用并得到监控数据,根据对监控数据的计算和分析来判断Spark应用是否出现异常情况,若Spark应用出现异常情况,那么还将进一步定位该异常情况,记录该异常情况发生的位置和时间以供开发人员后续处理,此外,还将对该异常情况进行分析,得到该异常情况的异常原因和解决方案,并将该异常情况的异常原因和解决方案通过邮件发送给开发人员或监控人员的邮箱账户。
本发明实施例通过在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用;在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况;若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户,解决了Spark应用监控没有异常日志分析的问题,实现了Spark应用监控的智能化的效果。
实施例二
如图2所示,本发明实施例二提供了一种Spark应用监控方法,本发明实施例二是在本发明实施例一的基础上进一步的说明解释,该方法包括:
S200、判断是否需要开启智能监控。
本实施例中,若要对Spark应用进行监控,首先需要判断是否要开启开发人员设定的智能监控,针对不同的应用场景,例如需要监控的Spark应用较为重要,那么就需要开启智能监控则,执行步骤S210-步骤S214,例如当前系统计算资源不足或有运行时间限制,则不需要开启智能监控,执行步骤S220-步骤S225。
S210、若需要开启所述智能监控,在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用。
S211、在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用的阻塞延迟任务以得到所述阻塞延迟任务数量,并监控所述Spark应用的重点Spark源码段、Spark用户代码段和Spark监听器总线以得到重点程序代码耗时。
本实施例中,如果需要开启智能监控,则在启动Spark应用时,将Java Agent代码指定的jar包写入Spark应用,然后监控Spark应用的阻塞延迟任务,同时监控Spark源码段、Spark用户代码段和Spark监听器总线中的重点事件,Spark应用的驱动通过BUS总线将上述的监控数据发送给ES数据库,其中监控数据包括阻塞延迟任务数量和重点程序代码耗时,其中重点程序代码耗时包括Spark源码段运行耗时、Spark用户代码段运行耗时和GC频率耗时。
S212、判断所述阻塞延迟任务数量是否大于第一阈值,并判断所述重点程序代码耗时是否大于第二阈值。
S213、若所述阻塞延迟任务数量大于第一阈值或所述重点程序代码耗时大于第二阈值,则所述Spark应用出现异常情况。
S214、若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
本实施例中,ES数据库会将接收到的监控数据发送给分析服务端以判断所述阻塞延迟任务数量是否大于第一阈值,并判断所述重点程序代码耗时是否大于第二阈值,第一阈值和第二阈值可以是开发人员预先设定的,若分析服务端判断出阻塞延迟任务数量大于第一阈值或所述重点程序代码耗时大于第二阈值,分析服务端会通过HTTP协议通知警告服务端,警告服务端将统计记录异常情况发生的位置和时间以供开发人员后续处理,此外,还将对该异常情况进行分析,得到该异常情况的异常原因和解决方案,并将该异常情况的异常原因和解决方案通过邮件发送给开发人员或监控人员的邮箱账户。
S220、若不需要开启所述智能监控,在所述Spark应用运行时轮询Hadoop Yarn任务池以判断所述Hadoop Yarn任务池中是否存在所述Spark应用的任务进程。
本实施例中,如果不需要开启智能监控,则只需要在述Spark应用运行时轮询Hadoop Yarn任务池,判断Hadoop Yarn任务池中是否存在Spark应用的任务进程,因为对于普通的Spark应用,其任务进程是常驻在Hadoop Yarn任务池中的,普通的Spark应用包括Spark Streaming、Spark Thrift Server和其他Spark应用,若Hadoop Yarn任务池中存在Spark应用的任务进程,则执行步骤S221-步骤S224,若Hadoop Yarn任务池中不存在Spark应用的任务进程,则执行步骤S225。
S221、若所述Hadoop Yarn任务池中存在所述任务进程,判断所述任务进程是否为Spark Thrift Server应用的进程。
本实施例中,即使若Hadoop Yarn任务池中存在Spark应用的任务进程,但对于特殊的Spark Thrift Server应用来说,还不能保证当前Spark应用没有出现异常情况,因此还需要判断存在的任务进程是否为Spark Thrift Server应用的进程。
S222、若所述任务进程为Spark Thrift Server应用的进程,按第一预设时间定时运行SQL数据库,并判断所述SQL数据库的运行时间是否超过第三阈值。
S223、若所述SQL数据库的运行时间超过第三阈值,则记录当前的异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
本实施例中,若任务进程不为Spark Thrift Server应用的进程,则可以判断当前Spark应用没有出现异常情况,若任务进程为Spark Thrift Server应用的进程,那么就需要按第一预设时间定时运行SQL数据库,并判断所述SQL数据库的运行时间是否超过第三阈值,其中第一预设时间和第三阈值都可以为开发人员预设的,若SQL数据库的运行时间没有超过第三阈值,则可以判断当前Spark应用没有出现异常情况,若SQL数据库的运行时间超过第三阈值,那么可以判断当前Spark应用出现了异常情况,因没有开启智能监控,为了尽量减少系统的计算资源,记录后只需要针对SQL数据库的运行时间超过第三阈值的可能的异常原因进行分析,然后将简单分析得到的异常原因和预先设定好的对应的解决方案通过邮件发送给开发人员或监控人员的邮箱账户。
S224、根据预先配置的自愈命令重新启动所述Spark Thrift Server应用。
进一步的,如果是因为Spark Thrift Server应用出现异常情况,可以通过ES数据库预先配置的自愈命令重新启动Spark Thrift Server应用,自动对出现异常情况的Spark应用进行修复。
S225、若所述Hadoop Yarn任务池中不存在所述任务进程,则记录当前的异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
本实施例中,因为普通的Spark应用的任务进程是常驻在Hadoop Yarn任务池中的,若Hadoop Yarn任务池中不存在Spark应用的任务进程,那么可以判断当前Spark应用出现了异常情况,因没有开启智能监控,为了尽量减少系统的计算资源,记录后只需要针对Hadoop Yarn任务池中不存在任务进程的可能的异常原因进行分析,然后将简单分析得到的异常原因和预先设定好的对应的解决方案通过邮件发送给开发人员或监控人员的邮箱账户。
实施例三
如图3所示,本发明实施例三提供了一种Spark应用监控系统100,本发明实施例三所提供的Spark应用监控系统100可执行本发明任意实施例所提供的Spark应用监控方法,具备执行方法相应的功能模块和有益效果。该Spark应用监控系统100包括代码添加模块200、应用监控模块300和邮件发送模块400。
具体的,代码添加模块200用于在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用;应用监控模块300用于在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况;邮件发送模块400用于若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
本实施例中,应用监控模块300具体用于监控所述Spark应用的阻塞延迟任务以得到所述阻塞延迟任务数量;判断所述阻塞延迟任务数量是否大于第一阈值;若所述阻塞延迟任务数量大于第一阈值,则所述Spark应用出现异常情况。应用监控模块300具体还用于监控所述Spark应用的重点Spark源码段、Spark用户代码段和Spark监听器总线以得到重点程序代码耗时;判断所述重点程序代码耗时是否大于第二阈值;若所述重点程序代码耗时大于第二阈值,则所述Spark应用出现异常情况。代码添加模块200具体用于判断是否需要开启智能监控;若需要开启所述智能监控,在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用。
进一步的,该Spark应用监控系统100还包括进程查询模块500,进程查询模块500用于若不需要开启所述智能监控,在所述Spark应用运行时轮询Hadoop Yarn任务池以判断所述Hadoop Yarn任务池中是否存在所述Spark应用的任务进程;若所述Hadoop Yarn任务池中不存在所述任务进程,则记录当前的异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。进程查询模块500还用于若所述Hadoop Yarn任务池中存在所述任务进程,判断所述任务进程是否为Spark Thrift Server应用的进程;若所述任务进程为Spark Thrift Server应用的进程,按第一预设时间定时运行SQL数据库,并判断所述SQL数据库的运行时间是否超过第三阈值;若所述SQL数据库的运行时间超过第三阈值,则记录当前的异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户;根据预先配置的自愈命令重新启动所述Spark Thrift Server应用。
实施例四
图4为本发明实施例四提供的一种Spark应用监控计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法:
在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用;
在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况;
若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的方法:
在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用;
在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况;
若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种Spark应用监控方法,其特征在于,包括:
在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用;
在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况;
若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
2.根据权利要求1所述的方法,其特征在于,所述监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况包括:
监控所述Spark应用的阻塞延迟任务以得到所述阻塞延迟任务数量;
判断所述阻塞延迟任务数量是否大于第一阈值;
若所述阻塞延迟任务数量大于第一阈值,则所述Spark应用出现异常情况。
3.根据权利要求1所述的方法,其特征在于,所述监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况还包括:
监控所述Spark应用的重点Spark源码段、Spark用户代码段和Spark监听器总线以得到重点程序代码耗时;
判断所述重点程序代码耗时是否大于第二阈值;
若所述重点程序代码耗时大于第二阈值,则所述Spark应用出现异常情况。
4.根据权利要求1所述的方法,其特征在于,所述在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用包括:
判断是否需要开启智能监控;
若需要开启所述智能监控,在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用。
5.根据权利要求4所述的方法,其特征在于,所述判断是否需要开启智能监控之后包括:
若不需要开启所述智能监控,在所述Spark应用运行时轮询Hadoop Yarn任务池以判断所述Hadoop Yarn任务池中是否存在所述Spark应用的任务进程;
若所述Hadoop Yarn任务池中不存在所述任务进程,则记录当前的异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
6.根据权利要求5所述的方法,其特征在于,所述判断所述Hadoop Yarn任务池中是否存在所述Spark应用的任务进程之后包括:
若所述Hadoop Yarn任务池中存在所述任务进程,判断所述任务进程是否为SparkThrift Server应用的进程;
若所述任务进程为Spark Thrift Server应用的进程,按第一预设时间定时运行SQL数据库,并判断所述SQL数据库的运行时间是否超过第三阈值;
若所述SQL数据库的运行时间超过第三阈值,则记录当前的异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
7.根据权利要求1所述的方法,其特征在于,所述若所述SQL数据库的运行时间超过第三阈值之后包括:
根据预先配置的自愈命令重新启动所述Spark Thrift Server应用。
8.一种Spark应用监控系统,其特征在于,包括:
代码添加模块,用于在启动Spark应用时添加预先编写的智能监控代码至所述Spark应用;
应用监控模块,用于在所述Spark应用运行时根据所述智能监控代码监控所述Spark应用得到监控数据,以判断所述Spark应用是否出现异常情况;
邮件发送模块,用于若所述Spark应用出现异常情况,则记录所述异常情况并将所述异常情况的异常原因和解决方案通过邮件发送给预设账户。
9.一种Spark应用监控设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202010386817.2A 2020-05-09 2020-05-09 一种Spark应用监控方法、系统、设备和存储介质 Pending CN111581059A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010386817.2A CN111581059A (zh) 2020-05-09 2020-05-09 一种Spark应用监控方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010386817.2A CN111581059A (zh) 2020-05-09 2020-05-09 一种Spark应用监控方法、系统、设备和存储介质

Publications (1)

Publication Number Publication Date
CN111581059A true CN111581059A (zh) 2020-08-25

Family

ID=72126395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010386817.2A Pending CN111581059A (zh) 2020-05-09 2020-05-09 一种Spark应用监控方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111581059A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732430A (zh) * 2021-01-20 2021-04-30 北京明略昭辉科技有限公司 一种对Spark任务分片所使用内存的限制方法及系统
CN112988534A (zh) * 2021-02-26 2021-06-18 北京明略昭辉科技有限公司 异常数据处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897609A (zh) * 2015-12-17 2017-06-27 北京奇虎科技有限公司 一种对动态加载的应用程序进行监控的方法及装置
US20180004751A1 (en) * 2016-06-29 2018-01-04 Intel Corporation Methods and apparatus for subgraph matching in big data analysis
CN108920195A (zh) * 2018-06-19 2018-11-30 Oppo(重庆)智能科技有限公司 开机处理方法及相关产品
CN109491841A (zh) * 2018-11-21 2019-03-19 南京安讯科技有限责任公司 一种提高Spark on yarn实时任务可靠性的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897609A (zh) * 2015-12-17 2017-06-27 北京奇虎科技有限公司 一种对动态加载的应用程序进行监控的方法及装置
US20180004751A1 (en) * 2016-06-29 2018-01-04 Intel Corporation Methods and apparatus for subgraph matching in big data analysis
CN108920195A (zh) * 2018-06-19 2018-11-30 Oppo(重庆)智能科技有限公司 开机处理方法及相关产品
CN109491841A (zh) * 2018-11-21 2019-03-19 南京安讯科技有限责任公司 一种提高Spark on yarn实时任务可靠性的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732430A (zh) * 2021-01-20 2021-04-30 北京明略昭辉科技有限公司 一种对Spark任务分片所使用内存的限制方法及系统
CN112988534A (zh) * 2021-02-26 2021-06-18 北京明略昭辉科技有限公司 异常数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107016480B (zh) 任务调度方法、装置及系统
WO2019148727A1 (zh) 电子装置、基于redis的异常预警方法及存储介质
CN110717132A (zh) 全链路监控系统数据收集方法、推送方法及相关设备
CN111930489B (zh) 一种任务调度方法、装置、设备及存储介质
CN113900834B (zh) 基于物联网技术的数据处理方法、装置、设备及存储介质
CN111581059A (zh) 一种Spark应用监控方法、系统、设备和存储介质
CN114398179B (zh) 一种跟踪标识的获取方法、装置、服务器及存储介质
CN111966653A (zh) 微服务调用链路数据处理方法、装置、服务器及存储介质
CN113238815B (zh) 一种接口访问控制方法、装置、设备及存储介质
CN113590437A (zh) 一种告警信息处理方法、装置、设备和介质
CN113760491A (zh) 一种任务调度系统、方法、设备及存储介质
CN112069158A (zh) 一种数据修复方法、装置、设备和存储介质
CN112181942A (zh) 时序数据库系统和数据处理方法及装置
CN114024999B (zh) 一种任务补偿方法、系统、装置、电子设备、存储介质
CN114510398A (zh) 异常监测方法、装置、设备、系统和介质
CN113220342A (zh) 中心化配置方法、装置、电子设备及存储介质
CN117093335A (zh) 分布式存储系统的任务调度方法及装置
CN111741046B (zh) 数据上报方法、获取方法、装置、设备及介质
CN114356713A (zh) 线程池监控方法、装置、电子设备及存储介质
CN113761054A (zh) 数据调取方法、装置、电子设备及存储介质
CN113656239A (zh) 针对中间件的监控方法、装置及计算机程序产品
CN112463514A (zh) 分布式缓存集群的监测方法和装置
CN113127001B (zh) 一种代码编译过程监控方法、装置、设备和介质
CN111917812A (zh) 数据的传输控制方法、装置、设备以及存储介质
CN113138793B (zh) 一种应用资源打包过程监控方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination