CN111522719B - 大数据任务状态的监控方法及装置 - Google Patents
大数据任务状态的监控方法及装置 Download PDFInfo
- Publication number
- CN111522719B CN111522719B CN202010341621.1A CN202010341621A CN111522719B CN 111522719 B CN111522719 B CN 111522719B CN 202010341621 A CN202010341621 A CN 202010341621A CN 111522719 B CN111522719 B CN 111522719B
- Authority
- CN
- China
- Prior art keywords
- big data
- task
- data task
- time
- running
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 190
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000008569 process Effects 0.000 claims abstract description 33
- 230000002159 abnormal effect Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000012806 monitoring device Methods 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 5
- 230000004083 survival effect Effects 0.000 description 10
- 238000012423 maintenance Methods 0.000 description 8
- 230000005856 abnormality Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供了一种大数据任务状态的监控方法及装置,该方法包括:调度预先配置的任务运行监控表;对任务运行监控表中的每一个大数据任务的运行状态实时进行监控;针对每一个大数据任务,依据监控到的大数据任务在运行过程中产生的运行数据,判断大数据任务的运行周期是否大于自身对应的告警阈值;若判断出大数据任务的运行周期不大于自身对应的告警阈值,则确定大数据任务的运行状态为正常状态,并依据大数据任务对应的运行数据,更新任务运行监控表中配置的大数据任务的更新时间和运行时长;若判断出大数据任务的运行周期大于自身对应的告警阈值,则确定大数据任务的运行状态为异常状态,并生成告警信息。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及到一种大数据任务状态的监控方法及装置。
背景技术
随着科学技术的不断进步,大数据技术被越来越多的应用在我们生活中的诸多领域。而在大数据任务在持续运行过程中,通常需要伴随大量的监控需求,以使得大数据任务能平稳、无异常的进行。
然现阶段,大数据任务的生产环境中,仍缺少对任务的运行状态进行监控和调节的方法,通常需要运维人员利用相关的管理视图或排除命令对大数据任务进行管理,这种方式效率低下,且往往无法及时发现数据异常并针对异常进行告警。
发明内容
有鉴于此,本申请提供了一种大数据任务状态的监控方法及装置,以向用户提供一种实时监控大数据任务运行状态的服务。
为实现上述目的,本申请实施例提供如下技术方案:
本申请第一方面提供了一种大数据任务状态的监控方法,包括:
调度预先配置的任务运行监控表;其中,所述任务运行监控表中预先配置了每一个所述大数据任务的基本任务信息和告警阈值;所述基本任务信息中包括初始更新时间和初始运行时长;
对所述任务运行监控表中的每一个大数据任务的运行状态实时进行监控;
针对每一个所述大数据任务,依据监控到的所述大数据任务在运行过程中产生的运行数据,判断所述大数据任务的运行周期是否大于自身对应的告警阈值;
若判断出所述大数据任务的运行周期不大于自身对应的告警阈值,则确定所述大数据任务的运行状态为正常状态,并依据所述大数据任务对应的运行数据,更新所述任务运行监控表中配置的所述大数据任务的更新时间和运行时长;
若判断出所述大数据任务的运行周期大于自身对应的告警阈值,则确定所述大数据任务的运行状态为异常状态,并生成告警信息。
可选的,所述任务运行监控表中预先配置了每一个大数据任务对应的监控方式,所述对所述任务运行监控表中的每一个大数据任务的运行状态实时进行监控,包括:
针对每一个大数据任务,在所述任务运行监控表中查询所述大数据任务对应的监控方式;
依据所述大数据任务对应的监控方式对所述大数据任务的运行状态实时进行监控。
可选的,所述判断所述大数据任务的运行周期是否大于自身对应的告警阈值,包括:
实时监测所述大数据任务的累计运行时长是否大于所述告警阈值;
若所述累计运行时长大于所述告警阈值,则确定所述大数据任务的运行周期大于自身对应的告警阈值;
若所述累计运行时长不大于所述告警阈值,则确定所述大数据任务的运行周期不大于自身对应的告警阈值。
可选的,所述依据所述大数据任务对应的运行数据,更新所述任务运行监控表中配置的所述大数据任务的更新时间和运行时长,包括:
从所述大数据任务的运行数据中,查询得到所述大数据任务在运行过程中产生的当前更新时间和当前运行时长;其中,所述当前更新时间为所述大数据任务运行结束的时刻,所述当前运行时长为所述大数据任务批量处理大数据所用的时长;
将所述任务运行监控表中的初始更新时间更新为所述当前更新时间、及将所述初始运行时长更新为所述当前运行时长。
可选的,所述将所述大数据任务的运行时长更新为所述当前运行时长之后,还包括:
获取在预设周期内的所述大数据任务每一次对大数据进行处理所用的运行时长;
利用所述每一个运行时长,计算在所述预设周期内的所述大数据任务的平均运行时长;
判断所述当前运行时长是否大于所述平均运行时长;
若判断出所述当前运行时长大于所述平均运行时长,则提高所述告警阈值;
若判断出所述当前运行时长不大于所述平均运行时长,则降低所述告警阈值。
本申请第二方面提供了一种大数据任务状态的监控装置,包括:
调度单元,用于调度预先配置的任务运行监控表;其中,所述任务运行监控表中预先配置了每一个所述大数据任务的基本任务信息和告警阈值;所述基本任务信息中包括初始更新时间和初始运行时长;
监控单元,用于对所述任务运行监控表中的每一个大数据任务的运行状态实时进行监控;
第一判断单元,用于针对每一个所述大数据任务,依据监控到的所述大数据任务在运行过程中产生的运行数据,判断所述大数据任务的运行周期是否大于自身对应的告警阈值;
更新单元,用于若所述第一判断单元判断出所述大数据任务的运行周期不大于自身对应的告警阈值,则确定所述大数据任务的运行状态为正常状态,并依据所述大数据任务对应的运行数据,更新所述任务运行监控表中配置的所述大数据任务的更新时间和运行时长;
告警单元,用于若所述第一判断单元判断出所述大数据任务的运行周期大于自身对应的告警阈值,则确定所述大数据任务的运行状态为异常状态,并生成告警信息。
可选的,所述监控单元,包括:
第一查询子单元,用于针对每一个大数据任务,在所述任务运行监控表中查询所述大数据任务对应的监控方式;
监控子单元,用于依据所述大数据任务对应的监控方式对所述大数据任务的运行状态实时进行监控。
可选的,所述第一判断单元,包括:
判断子单元,用于实时监测所述大数据任务的累计运行时长是否大于所述告警阈值;
第一确定子单元,用于若所述判断子单元实时监测出所述累计运行时长大于所述告警阈值,则确定所述大数据任务的运行状态不满足自身对应的告警阈值;
第二确定子单元,用于若所述判断子单元实时监测出所述累计运行时长不大于所述告警阈值,则确定所述大数据任务的运行状态满足自身对应的告警阈值。
可选的,所述更新单元,包括:
第二查询子单元,用于从所述大数据任务的运行数据中,查询得到所述大数据任务在运行过程中产生的当前更新时间和当前运行时长;其中,所述当前更新时间为所述大数据任务运行结束的时刻,所述当前运行时长为所述大数据任务批量处理大数据所用的时长;
更新子单元,用于将所述任务运行监控表中的初始更新时间更新为所述当前更新时间、及将所述初始运行时长更新为所述当前运行时长。
可选的,上述的任意一项大数据任务状态的监控装置,还包括:
获取单元,用于获取在预设周期内的所述大数据任务每一次对大数据进行处理所用的运行时长;
计算单元利用所述每一个运行时长,计算在所述预设周期内的所述大数据任务的平均运行时长;
第二判断单元,用于判断所述当前运行时长是否大于所述平均运行时长;
第一调整单元,用于若所述第二判断单元判断出所述当前运行时长大于所述平均运行时长,则提高所述告警阈值;
第二调整单元,用于若所述第二判断单元判断出所述当前运行时长不大于所述平均运行时长,则降低所述告警阈值。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的一种大数据任务状态的监控方法中,调度预先配置的任务运行监控表;其中,任务运行监控表中预先配置了每一个大数据任务的基本任务信息和告警阈值;对任务运行监控表中的每一个大数据任务的运行状态实时进行监控;针对每一个大数据任务,依据监控到的大数据任务在运行过程中产生的运行数据,判断大数据任务的运行周期是否大于自身对应的告警阈值;若判断出大数据任务的运行周期不大于自身对应的告警阈值,则确定大数据任务的运行状态为正常状态,并依据大数据任务对应的运行数据,更新任务运行监控表中配置的大数据任务的更新时间和运行时长;若判断出大数据任务的运行周期大于自身对应的告警阈值,则确定大数据任务的运行状态为异常状态,并生成告警信息。应用本申请实施例提供的监控方法,能够实时根据调度的任务运行监控表对表中包括的所有的大数据任务进行周期性实时监控,一方面在大数据任务运行正常时自动更新任务基本信息,另一方面在运行异常时,实时生成告警信息,使得运维人员能够及时了解大数据任务的运行情况,并在出现异常时及时进行处理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种大数据任务状态的监控方法的流程图;
图2为本申请另一实施例提供的一种对大数据任务实时监控的流程图;
图3为本申请另一实施例提供一种步骤S103的实现方法的方法流程图;
图4为本申请另一实施例提供的一种调整告警阈值的方法流程图;
图5为本申请另一实施例提供的更新任务运行监控表的方法流程图;
图6为本申请实施例提供的一种大数据任务状态的监控装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要说明的是,发明人在对现有技术的研究中发现,随着全球数据进入爆发式增长态势,当下社会迈入了大数据时代。与此同时,大数据任务应运而生,为企业管理和开发大数据提供了一种重要的方式。然而,在当前大数据任务的生产环境中,缺少了一种能对任务的运行状态进行监控和调节的方法,导致运维人员无法及时在大数据任务中发现数据异常并针对异常进行告警。
有鉴于此,本申请实施例提供了一种大数据任务状态的监控方法,能有效利用周期性执行监控命令,使得大数据任务的每个周期的运行状态的都能得到全面的监控。具体的,请参照图1所示,该方法包括:
S101、调度预先配置的任务运行监控表。
其中,任务运行监控表中预先配置了每一个大数据任务的基本任务信息和告警阈值,基本任务信息中包括初始更新时间和初始运行时长。
本实施例中,任务运行监控表是一个针对于各个大数据任务的运行方式及运行周期,而预先配置好的至少包含一个大数据任务的数据库表。例如在Linux系统中,任务运行监控表的形式为cron表,cron表中存储了执行路径或命令和执行时间,格式为:分时日月工作日命令。通过调度预先配置的任务运行监控表,以得到表中的大数据任务的基本任务信息和告警阈值,进一步获得该大数据任务的监控方式、调度周期等重要任务信息。
其中,大数据的基本任务信息中包括了任务的初始更新时间和初始运行时长,这两个参数值在后续的每个周期的监控任务中都会得到更新值。
可选的,大数据任务的基本任务信息除了包括上述的初始更新时间和初始运行时长,还包括有以下基本信息:
任务流,任务流中进一步包括有任务名称、任务ID、任务所属系统、任务所属工作量。
任务类型,包括有批量任务或流式任务。
监控方式,包括有监控数据分区目录、监控数据目录修改时间、监控文件目录、监控进程等监控方式。
调度周期,例如天、小时、分钟、周、月或一次性非周期等周期。
借由调度到的上述的基本任务信息,实现依据配置好的调度周期,按照周期性对大数据任务进行监控。
告警阈值则是用于在监控过程中,若监控到大数据任务在运行过程中的运行状态超出了预设的告警阈值,则会发出告警信息,以及时提醒运维人员对该大数据任务进行查看和排除异常。
综上所述,本步骤的核心在于任务运行监控表;针对于大数据任务的运行特性而配置的任务运行监控表,能够使得后台在调度该表时,按照表中的任务基本信息对大数据任务的运行状态进行监控。
S102、对任务运行监控表中的每一个大数据任务的运行状态实时进行监控。
本实施例中,需要说明的是,任务运行监控表中包含至少一个大数据任务。需要明确的是,由于不同的大数据任务的基本任务信息不同,因此在对不同的大数据任务进行监控的方式及周期时间也不尽相同。例如:大数据任务1为即时任务,因此预先配置的调度周期为每小时调度一次,那么在调度到大数据任务1时,则会遵循每小时监控一次任务运行状态的调度周期;而大数据任务2为核算任务(例如为每月营收核算),则配置的调度周期为每个月调度一次,那么在调度到大数据任务2时,则会遵循每月监控一次任务运行状态的调度周期。应当理解的是,调度周期内的监控时段亦会配置有具体的时间区间,此处便不再赘述。
可选的,本申请另一实施例中,任务运行监控表中预先配置了每一个大数据任务对应的监控方式,对大数据任务的运行状态进行实时监控的方式可参照图2所示,包括:
S201、针对每一个大数据任务,在任务运行监控表中查询该大数据任务对应的监控方式。
前述中提及监控方式,包括有监控数据分区目录、监控数据目录修改时间、监控文件目录、监控进程等监控方式。不同的监控方式适用于不同的大数据任务。因此,针对不同的大数据任务的运行监控行为,需要从任务运行监控表中查询得到该大数据任务对应的监控方式。
S202、依据所述大数据任务对应的监控方式对所述大数据任务的运行状态实时进行监控。
本步骤以两个实例进行简单解释:
示例1,大数据任务A对数据进行处理后,会将结果数据写入新的目录,因此,监控大数据任务A是否运行及运行结果的方式,仅需要监控数据分区目录是否产生新的数据项,在什么时间产生即可。
实例2,大数据任务B对数据进行处理后,会将结果数据覆盖原来的数据,如利息核算业务中,用户存款的金额会加上每日核算的利息,并覆盖更新原先的金额。因此,针对大数据任务B的监控方式,应采用监控数据目录修改时间。
同理,其他诸如监控文件目录、监控进程等监控方式也相应的存在其他的大数据任务类型,此处便不再一一赘述。
还需要说明的是,采用不同的监控方式对大数据任务进行监控,有助于提高对大数据任务的监控效率和精确度,为运维人员提供重要的数据依据。
S103、针对每一个大数据任务,依据监控到的大数据任务在运行过程中产生的运行数据,判断大数据任务的运行周期是否大于自身对应的告警阈值。
本实施例中,调起监控程序对大数据任务的运行状态进行监控之后,进一步获取大数据任务在运行过程中产生的运行数据。其中,运行数据可以包括有当前更新时间和当前运行时长。当前更新时间指代在本次监控任务中,大数据任务运行结束的时刻,其格式例如为:2020/04/20,20:50:10;当前运行时长指代大数据任务批量处理大数据所用的时长,其中,更进一步为当前周期所批量处理的大数据(例如本月营收核算数据)所用的时长,其格式例如为1小时30分钟10秒。还需要说明的是,运行数据包括但不仅限于上述中提到的当前更新时间和当前运行时长。
在后续步骤中,通过获取到的大数据任务的运行数据,结合任务运行监控表中预先配置的自身对应的告警阈值,以判断大数据任务本次运行的运行周期是否大于自身对应的告警阈值。
可选的,在本申请另一实施例中,判断大数据任务的运行周期是否大于自身对应的告警阈值的方式,请参照图3所示,包括:
S301、实时监测所述大数据任务的累计运行时长是否大于所述告警阈值。
本实施例中,累计运行时长属于运行数据中的一项。以大数据任务预定的运行起始时间为准,例如某个周期为“天”的大数据任务,若其运行起始时间设置为凌晨0:00,则累计运行时长通过0:00以后的持续运行的时间进行确定。
还需要说明的是,告警阈值为预先配置的数值阈值,其生成形式可以采用:告警阈值=预设运行时长*有效存活周期倍数。其中,有效存活周期倍数依据任务特性而定,具有一定的延后性,例如可以为2。简言之,该实例在一个大数据任务最初配置时,将其运行时长乘以2,以得到告警阈值。在实际的监控过程中,当该大数据任务的累计运行时长不超出告警阈值,则表征其运行状态为正常状态。
例如,本月营收核算任务的预设运行时长为1小时,当有效存活周期倍数设置为2时,其告警阈值便为2小时。在本月对营收核算任务进行监控中,若该任务运行时的累计运行时长不超出2小时,则表征大数据任务的运行状态为正常状态,反之,该任务运行时的累计运行时长超出2小时,则表征大数据任务的运行状态为异常状态。
S302、若实时监测出累计运行时长大于告警阈值,则确定大数据任务的运行状态不满足自身对应的告警阈值。
S303、若实时监测出累计运行时长不大于告警阈值,则确定大数据任务的运行状态满足自身对应的告警阈值。
步骤S302及步骤S303的详细说明请参照步骤S301中的本月营收核算任务中的说明内容,此处不再赘述。
S104、若判断出大数据任务的运行周期不大于自身对应的告警阈值,则确定大数据任务的运行状态为正常状态,并依据大数据任务对应的运行数据,更新任务运行监控表中配置的大数据任务的更新时间和运行时长。
本实施例中,判断出大数据任务的运行周期不大于自身对应的告警阈值,则表征该大数据任务从起始运行时间开始,累计运行时长不超过告警阈值,因此,该大数据任务的运行状态属于正常状态。
在正常状态下,则根据大数据任务的运行数据,对任务运行监控表中配置的大数据任务的更新时间和运行时长进行覆盖更新。其中,更新时间和运行时长还用于在一定的周期时间内,对存活周期倍数及对应的告警阈值进行负反馈调节。
可选的,本申请另一实施例中,利用运行时长调整告警阈值的方式,请参照图4所示,包括:
S401、获取在预设周期内的大数据任务每一次对大数据进行处理所用的运行时长。
本实施例中,预设周期根据大数据任务的特性而定,如每个月、每个周均可。以银行存款利息核算为例,该大数据任务需要在每天核算用户账户存款所产生的利息金额,因此在一个月内,监控到的大数据任务的运行次数为当月的天数。因此,需要获取当月内用户存款金额,在每日利息核算处理中所用的运行时长。
S402、利用每一个运行时长,计算在预设周期内的大数据任务的平均运行时长。
此处旨在求得在一定时间区内,大数据任务的平均运行时长与单次任务的运行时长之间的关系。在获取到平均运行时长后,则执行步骤S403、判断当前运行时长是否大于所述平均运行时长。
S404、若判断出当前运行时长大于平均运行时长,则提高告警阈值。
本实施例中,当前运行时长为本次监控下,大数据任务处理数据所用的时长,若判断出当前运行时长大于平均运行时长,则在一定程度上表征随着时间的推移,数据量或有所增加。因此为避免预留的告警阈值过小,需要适当的提高告警阈值。可选的,将当前的有效存活倍数*1.2,得到提高后到告警阈值;即新的告警阈值为:预设运行时长*有效存活周期倍数*1.2。
S405、若判断出当前运行时长不大于平均运行时长,则降低告警阈值。
当运行时长不大于平均运行时长时,在一定程度上表征了数据量或有所减少,因此需要降低告警阈值来获得更高的反馈体验。可选的,降低告警阈值的方式为:预设运行时长*有效存活周期倍数*0.8。
综上所述,在大数据任务运行一段时间后,根据监控到的该大数据任务的多个处理数据所用的运行时长,对告警阈值进行更新,以获得更好的监控反馈效果。
可选的,本申请另一实施例中,依据大数据任务对应的运行数据,更新任务运行监控表中配置的大数据任务的更新时间和运行时长,请参照图5所示,包括:
S501、从大数据任务的运行数据中,查询得到该大数据任务在运行过程中产生的当前更新时间和当前运行时长。
其中,当前更新时间为所述大数据任务运行结束的时刻,当前运行时长为大数据任务批量处理大数据所用的时长。
本实施例中,当前更新时间和当前运行时长是运行数据中的重要的两个数据项,能够反映大数据任务是否按照预设的周期进行跑批或核算,若监控到在理论的时间段内,都存在相应的相应的更新时间和运行时长,则表示该大数据的每次运行过程都很顺利,不存在异常;反之,若在理论的时间段内没有存在相应的更新时间和运行时长,则代表该大数据任务的运行存在异常,需要及时进行告警。当然,本步骤建立在运行正常的基础上,以此来获取到本次运行中产生的当前更新时间和当前运行时长。
S502、将任务运行监控表中的初始更新时间更新为当前更新时间、及将初始运行时长更新为当前运行时长。
需要明确的是,上一次的历史运行中得到的更新时间和运行时长,将作为下一次运行中的初始更新时间和初始运行时长;在下一次得到新的更新时间和运行时长后,将更新该值。
还需要说明的是,更新的方式可以采用覆盖更新,即覆盖任务运行监控表中原来的数据项;以在下一次的监控中,将更新后的任务运行监控表指示监控程序的运作。
S105、若判断出大数据任务的运行周期大于自身对应的告警阈值,则确定大数据任务的运行状态为异常状态,并生成告警信息。
本步骤在本月营收核算任务的基础上,当本月营收核算任务的预设运行时长为1小时,有效存活周期倍数为2的情况下,告警阈值便2个小时。在预设的运行开始时间至后续的2个小时内,若没有监控到该大数据任务运行所产生的运行数据,则判断大数据任务的运行状态不满足自身对应的告警阈值,因此生成告警信息。可选的,告警信息的形式可以采用告警短信、邮件、WEB页面展示等形式发送至运维人员,以让运维人员及时了解到大数据任务的运行状态。
本申请实施例提供的一种大数据任务状态的监控方法中,调度预先配置的任务运行监控表;其中,任务运行监控表中预先配置了每一个大数据任务的基本任务信息和告警阈值;对任务运行监控表中的每一个大数据任务的运行状态实时进行监控;针对每一个大数据任务,依据监控到的大数据任务在运行过程中产生的运行数据,判断大数据任务的运行周期是否大于自身对应的告警阈值;若判断出大数据任务的运行周期不大于自身对应的告警阈值,则确定大数据任务的运行状态为正常状态,并依据大数据任务对应的运行数据,更新任务运行监控表中配置的大数据任务的更新时间和运行时长;若判断出大数据任务的运行周期大于自身对应的告警阈值,则确定大数据任务的运行状态为异常状态,并生成告警信息。应用本申请实施例提供的监控方法,能够实时根据调度的任务运行监控表对表中包括的所有的大数据任务进行周期性实时监控,一方面在运行正常时自动更新任务基本信息,另一方面在运行异常时,实时生成告警信息,使得运维人员能够及时了解大数据任务的运行情况,并在出现异常时及时进行处理。
本申请实施例还提供了一种大数据任务状态的监控装置,请参照图6所示,包括:
调度单元601,用于调度预先配置的任务运行监控表;其中,任务运行监控表中预先配置了每一个大数据任务的基本任务信息和告警阈值;基本任务信息中包括初始更新时间和初始运行时长。
监控单元602,用于对任务运行监控表中的每一个大数据任务的运行状态实时进行监控。
第一判断单元603,用于针对每一个大数据任务,依据监控到的大数据任务在运行过程中产生的运行数据,判断大数据任务的运行周期是否大于自身对应的告警阈值。
更新单元604,用于若第一判断单元判断出大数据任务的运行周期不大于自身对应的告警阈值,则确定大数据任务的运行状态为正常状态,并依据大数据任务对应的运行数据,更新任务运行监控表中配置的大数据任务的更新时间和运行时长。
告警单元604,用于若第一判断单元判断出大数据任务的运行周期大于自身对应的告警阈值,则确定大数据任务的运行状态为异常状态,并生成告警信息。
本申请实施例提供的大数据任务的告警装置中,调度单元601调度预先配置的任务运行监控表,监控单元602对任务运行监控表中的每一个大数据任务的运行状态实时进行监控,第一判断单元603针对每一个大数据任务,依据监控到的大数据任务在运行过程中产生的运行数据,判断大数据任务的运行周期是否大于自身对应的告警阈值。当第一判断单元603判断出大数据任务的运行周期不大于自身对应的告警阈值时,更新单元604确定大数据任务的运行状态为正常状态,并依据大数据任务对应的运行数据,更新任务运行监控表中配置的大数据任务的更新时间和运行时长;当第一判断单元603判断出大数据任务的运行周期大于自身对应的告警阈值时,告警单元604确定大数据任务的运行状态为异常状态,并生成告警信息。由此可见,本申请实施例提供的大数据任务状态的监控装置中,能够实时对大数据任务的运行状态进行监控,并根据监控结果做出相应的行为,在运行正常时自动更新任务基本信息;在运行异常时,实时生成告警信息。
本实施例中,调度单元601、监控单元602、第一判断单元603、更新单元604及告警单元605的具体执行过程,请参照对应图1的方法实施例的内容,此处便不再赘述。
可选的,本申请另一实施例中,监控单元602,包括:
第一查询子单元,用于针对每一个大数据任务,在任务运行监控表中查询大数据任务对应的监控方式。
监控子单元,用于依据大数据任务对应的监控方式对大数据任务的运行状态实时进行监控。
本实施例中,第一查询子单元及监控子单元的具体执行过程,请参照对应图2的方法实施例的内容,此处便不再赘述。
可选的,本申请另一实施例中,第一判断单元603,包括:
判断子单元,用于实时监测大数据任务的累计运行时长是否大于告警阈值。
第一确定子单元,用于若判断子单元实时监测出累计运行时长大于告警阈值,则确定大数据任务的运行状态不满足自身对应的告警阈值。
第二确定子单元,用于若判断子单元实时监测出累计运行时长不大于告警阈值,则确定大数据任务的运行状态满足自身对应的告警阈值。
本实施例中,判断子单元、第一确定子单元及第二确定子单元的具体执行过程,请参照对应图3的方法实施例的内容,此处便不再赘述。
可选的,本申请另一实施例中,更新单元604,包括:
第二查询子单元,用于从大数据任务的运行数据中,查询得到大数据任务在运行过程中产生的当前更新时间和当前运行时长;其中,当前更新时间为大数据任务运行结束的时刻,当前运行时长为大数据任务批量处理大数据所用的时长。
更新子单元,用于将任务运行监控表中的初始更新时间更新为当前更新时间、及将初始运行时长更新为当前运行时长。
本实施例中,第二查询子单元及更新子单元的具体执行过程,请参照对应图5的方法实施例的内容,此处便不再赘述。
可选的,本申请另一实施例中,大数据任务状态的监控装置,还包括:
获取单元,用于获取在预设周期内的大数据任务每一次对大数据进行处理所用的运行时长。
计算单元利用每一个运行时长,计算在预设周期内的大数据任务的平均运行时长。
第二判断单元,用于判断当前运行时长是否大于平均运行时长;
第一调整单元,用于若第二判断单元判断出当前运行时长大于平均运行时长,则提高告警阈值。
第二调整单元,用于若第二判断单元判断出当前运行时长不大于平均运行时长,则降低告警阈值。
本实施例中,获取单元、计算单元、第二判断单元、第一调整单元及第二调整单元的具体执行过程,请参照对应图4的方法实施例的内容,此处便不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要注意的是,本说明书中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种大数据任务状态的监控方法,其特征在于,包括:
调度预先配置的任务运行监控表;其中,所述任务运行监控表中预先配置了每一个所述大数据任务的基本任务信息、调度周期、监控方式和告警阈值;所述基本任务信息中包括初始更新时间和初始运行时长;所述告警阈值为基于预设运行时长设置且大于预设运行时长的阈值;
针对每一个大数据任务,在所述任务运行监控表中查询所述大数据任务对应的监控方式;其中,所述每一个大数据任务的监控方式基于所述大数据任务的运行结果的记录方式确定,包括监控数据分区目录、监控数据目录修改时间、监控文件目录;
按照所述任务运行监控表中记录的各个大数据任务的调度周期和监控方式,对所述任务运行监控表中的每一个大数据任务的运行状态实时进行监控,确定每一个大数据任务的运行结果的产生时刻;
针对每一个所述大数据任务,依据监控到的所述大数据任务在运行过程中产生的运行数据,判断所述大数据任务的运行周期是否大于自身对应的告警阈值;其中,在所述告警阈值对应的时间到达后,仍没有监控到所述大数据任务产生的运行数据,则确定所述大数据任务的运行时间大于自身对应的告警阈值;所述运行数据包括当前更新时间和当前运行时长;所述当前更新时间指代本次监控任务中被监控的大数据任务的运行结束时刻;所述当前运行时长指代被监控的大数据任务批量处理大数据所用的时长;
若判断出所述大数据任务的运行周期不大于自身对应的告警阈值,则确定所述大数据任务的运行状态为正常状态,并依据所述大数据任务对应的运行数据,更新所述任务运行监控表中配置的所述大数据任务的更新时间和运行时长;
若判断出所述大数据任务的运行周期大于自身对应的告警阈值,则确定所述大数据任务的运行状态为异常状态,并生成告警信息。
2.根据权利要求1所述的监控方法,其特征在于,所述判断所述大数据任务的运行周期是否大于自身对应的告警阈值,包括:
实时监测所述大数据任务的累计运行时长是否大于所述告警阈值;
若所述累计运行时长大于所述告警阈值,则确定所述大数据任务的运行周期大于自身对应的告警阈值;
若所述累计运行时长不大于所述告警阈值,则确定所述大数据任务的运行周期不大于自身对应的告警阈值。
3.根据权利要求1所述的监控方法,其特征在于,所述依据所述大数据任务对应的运行数据,更新所述任务运行监控表中配置的所述大数据任务的更新时间和运行时长,包括:
从所述大数据任务的运行数据中,查询得到所述大数据任务在运行过程中产生的当前更新时间和当前运行时长;其中,所述当前更新时间为所述大数据任务运行结束的时刻,所述当前运行时长为所述大数据任务批量处理大数据所用的时长;
将所述任务运行监控表中的初始更新时间更新为所述当前更新时间、及将所述初始运行时长更新为所述当前运行时长。
4.根据权利要求3所述的方法,其特征在于,所述将所述初始运行时长更新为所述当前运行时长之后,还包括:
获取在预设周期内的所述大数据任务每一次对大数据进行处理所用的运行时长;
利用所述每一个运行时长,计算在所述预设周期内的所述大数据任务的平均运行时长;
判断所述当前运行时长是否大于所述平均运行时长;
若判断出所述当前运行时长大于所述平均运行时长,则提高所述告警阈值;
若判断出所述当前运行时长不大于所述平均运行时长,则降低所述告警阈值。
5.一种大数据任务状态的监控装置,其特征在于,包括:
调度单元,用于调度预先配置的任务运行监控表;其中,所述任务运行监控表中预先配置了每一个所述大数据任务的基本任务信息、调度周期和告警阈值;所述基本任务信息中包括初始更新时间和初始运行时长;所述告警阈值为基于预设运行时长设置且大于预设运行时长的阈值;
监控单元,用于按照所述任务运行监控表中记录的各个大数据任务的调度周期,对所述任务运行监控表中的每一个大数据任务的运行状态实时进行监控,确定每一个大数据任务的运行结果的产生时刻;
第一判断单元,用于针对每一个所述大数据任务,依据监控到的所述大数据任务在运行过程中产生的运行数据,判断所述大数据任务的运行周期是否大于自身对应的告警阈值;其中,在所述告警阈值对应的时间到达后,仍没有监控到所述大数据任务产生的运行数据,则确定所述大数据任务的运行时间大于自身对应的告警阈值;
更新单元,用于若所述第一判断单元判断出所述大数据任务的运行周期大于自身对应的告警阈值,则确定所述大数据任务的运行状态为正常状态,并依据所述大数据任务对应的运行数据,更新所述任务运行监控表中配置的所述大数据任务的更新时间和运行时长;
告警单元,用于若所述第一判断单元判断出所述大数据任务的运行周期不大于自身对应的告警阈值,则确定所述大数据任务的运行状态为异常状态,并生成告警信息;
其中,所述监控单元,包括:
第一查询子单元,用于针对每一个大数据任务,在所述任务运行监控表中查询所述大数据任务对应的监控方式;其中,所述每一个大数据任务的监控方式基于所述大数据任务的运行结果的记录方式确定,包括监控数据分区目录、监控数据目录修改时间、监控文件目录;
监控子单元,用于依据所述大数据任务对应的监控方式对所述大数据任务的运行状态实时进行监控,确定每一个大数据任务的运行结果的产生时刻。
6.根据权利要求5所述的监控装置,其特征在于,所述第一判断单元,包括:
判断子单元,用于实时监测所述大数据任务的累计运行时长是否大于所述告警阈值;
第一确定子单元,用于若所述判断子单元实时监测出所述累计运行时长大于所述告警阈值,则确定所述大数据任务的运行状态不满足自身对应的告警阈值;
第二确定子单元,用于若所述判断子单元实时监测出所述累计运行时长不大于所述告警阈值,则确定所述大数据任务的运行状态满足自身对应的告警阈值。
7.根据权利要求5所述的监控装置,其特征在于,所述更新单元,包括:
第二查询子单元,用于从所述大数据任务的运行数据中,查询得到所述大数据任务在运行过程中产生的当前更新时间和当前运行时长;其中,所述当前更新时间为所述大数据任务运行结束的时刻,所述当前运行时长为所述大数据任务批量处理大数据所用的时长;
更新子单元,用于将所述任务运行监控表中的初始更新时间更新为所述当前更新时间、及将所述初始运行时长更新为所述当前运行时长。
8.根据权利要求7所述的监控装置,其特征在于,还包括:
获取单元,用于获取在预设周期内的所述大数据任务每一次对大数据进行处理所用的运行时长;
计算单元利用所述每一个运行时长,计算在所述预设周期内的所述大数据任务的平均运行时长;
第二判断单元,用于判断所述当前运行时长是否大于所述平均运行时长;
第一调整单元,用于若所述第二判断单元判断出所述当前运行时长大于所述平均运行时长,则提高所述告警阈值;
第二调整单元,用于若所述第二判断单元判断出所述当前运行时长不大于所述平均运行时长,则降低所述告警阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010341621.1A CN111522719B (zh) | 2020-04-27 | 2020-04-27 | 大数据任务状态的监控方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010341621.1A CN111522719B (zh) | 2020-04-27 | 2020-04-27 | 大数据任务状态的监控方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111522719A CN111522719A (zh) | 2020-08-11 |
CN111522719B true CN111522719B (zh) | 2023-12-01 |
Family
ID=71904574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010341621.1A Active CN111522719B (zh) | 2020-04-27 | 2020-04-27 | 大数据任务状态的监控方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111522719B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762906B (zh) * | 2020-08-12 | 2024-07-19 | 北京沃东天骏信息技术有限公司 | 任务周期延迟的告警方法、装置、设备及存储介质 |
CN113377611A (zh) * | 2021-06-07 | 2021-09-10 | 广发银行股份有限公司 | 一种业务处理流程监控方法、系统、设备及存储介质 |
CN113342608B (zh) * | 2021-06-08 | 2024-06-21 | 中国建设银行股份有限公司 | 流式计算引擎任务的监控方法及装置 |
CN113608960B (zh) * | 2021-07-09 | 2024-06-25 | 五八有限公司 | 一种服务监控方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106371968A (zh) * | 2016-08-23 | 2017-02-01 | 北京奇虎科技有限公司 | 一种对实时计算进行监控的方法和装置 |
CN108319538A (zh) * | 2018-02-02 | 2018-07-24 | 世纪龙信息网络有限责任公司 | 大数据平台运行状态的监控方法和系统 |
WO2018233037A1 (zh) * | 2017-06-20 | 2018-12-27 | 平安科技(深圳)有限公司 | 数据库集成测试方法、装置、服务器及存储介质 |
CN109688188A (zh) * | 2018-09-07 | 2019-04-26 | 平安科技(深圳)有限公司 | 监控告警方法、装置、设备及计算机可读存储介质 |
CN110413483A (zh) * | 2019-07-30 | 2019-11-05 | 中国工商银行股份有限公司 | 批量作业数据的监控方法、装置、电子设备及存储介质 |
CN110716832A (zh) * | 2019-09-24 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 业务运行的监控告警方法、系统、电子设备及存储介质 |
CN110752942A (zh) * | 2019-09-06 | 2020-02-04 | 平安科技(深圳)有限公司 | 告警信息的决策方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060200450A1 (en) * | 2005-03-04 | 2006-09-07 | Microsoft Corporation | Monitoring health of actively executing computer applications |
-
2020
- 2020-04-27 CN CN202010341621.1A patent/CN111522719B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106371968A (zh) * | 2016-08-23 | 2017-02-01 | 北京奇虎科技有限公司 | 一种对实时计算进行监控的方法和装置 |
WO2018233037A1 (zh) * | 2017-06-20 | 2018-12-27 | 平安科技(深圳)有限公司 | 数据库集成测试方法、装置、服务器及存储介质 |
CN108319538A (zh) * | 2018-02-02 | 2018-07-24 | 世纪龙信息网络有限责任公司 | 大数据平台运行状态的监控方法和系统 |
CN109688188A (zh) * | 2018-09-07 | 2019-04-26 | 平安科技(深圳)有限公司 | 监控告警方法、装置、设备及计算机可读存储介质 |
CN110413483A (zh) * | 2019-07-30 | 2019-11-05 | 中国工商银行股份有限公司 | 批量作业数据的监控方法、装置、电子设备及存储介质 |
CN110752942A (zh) * | 2019-09-06 | 2020-02-04 | 平安科技(深圳)有限公司 | 告警信息的决策方法、装置、计算机设备及存储介质 |
CN110716832A (zh) * | 2019-09-24 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 业务运行的监控告警方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111522719A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522719B (zh) | 大数据任务状态的监控方法及装置 | |
WO2018068558A1 (zh) | 网络业务调度方法、装置、存储介质和程序产品 | |
CN110794800B (zh) | 一种智慧工厂信息管理的监控系统 | |
CN101566847B (zh) | 用于过程控制系统的基于开放网络的数据获取、集合和优化 | |
US7693735B2 (en) | Dynamic schedule mediation | |
US8321253B2 (en) | Technician control system | |
US8364513B2 (en) | Technician control system | |
US8676756B2 (en) | Replicating time-series data values for retrieved supervisory control and manufacturing parameter values in a multi-tiered historian server environment | |
CN106406993A (zh) | 一种定时任务管理方法和系统 | |
US9031681B2 (en) | System and method for controlling the operations of a manufacturing facility | |
WO2012071170A2 (en) | Automatic upgrade scheduling | |
JP2008186192A (ja) | 交換部品発注処理装置、交換部品発注処理方法及び交換部品発注処理プログラム | |
EP2610697B1 (en) | System and method for managing life-cycle of batch in production control system in real time | |
CN114240053A (zh) | 充电站自动故障上报系统及方法 | |
CN113780771A (zh) | 一种工厂员工的智能排班方法 | |
CN101364107A (zh) | 一种复杂大系统环境下的有预测动态调度方法 | |
CN116300720A (zh) | 一种智能化产线柔性调度高级计划排产系统 | |
CN113419691B (zh) | 一种3d打印方法、装置及3d打印物联网系统 | |
JP2011065486A (ja) | 気づきプログラム及び気づきシステム | |
CN107797856B (zh) | 基于windows服务的计划任务管控方法、装置及存储介质 | |
EP2463812A1 (en) | Scheduling the maintenance of operational equipment | |
CN117251269A (zh) | Jenkins资源管理方法、装置、设备及存储介质 | |
JP4822066B2 (ja) | フィールド機器診断装置 | |
JP5755025B2 (ja) | プログラム更新指示装置 | |
CN114553947A (zh) | 一种对消息进行处理的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Ligang Inventor after: Chen Shiqiang Inventor after: Xu Yaguang Inventor after: Yu Hao Inventor after: Wang Pengqing Inventor before: Liu Ligang |
|
GR01 | Patent grant | ||
GR01 | Patent grant |