CN111010292A - 一种离线任务延时告警系统、方法及计算机系统 - Google Patents

一种离线任务延时告警系统、方法及计算机系统 Download PDF

Info

Publication number
CN111010292A
CN111010292A CN201911177850.8A CN201911177850A CN111010292A CN 111010292 A CN111010292 A CN 111010292A CN 201911177850 A CN201911177850 A CN 201911177850A CN 111010292 A CN111010292 A CN 111010292A
Authority
CN
China
Prior art keywords
task
offline task
current
historical
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911177850.8A
Other languages
English (en)
Inventor
陆罡
徐根林
孙迁
佘国俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN201911177850.8A priority Critical patent/CN111010292A/zh
Publication of CN111010292A publication Critical patent/CN111010292A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种离线任务延时告警系统、方法及计算机系统,所述告警系统包括:采集模块,用于采集系统历史离线任务数据及当前离线任务数据;历史时间获取模块,用于根据所述历史离线任务数据获取历史离线任务完成时间点;预测模块,用于根据所述当前离线任务数据预测所述当前离线任务的处理时长;告警模块,用于根据所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务是否延时,并在延时时发出当前离线任务延时告警。本发明可以智能、及时、准确发出任务延时告警。

Description

一种离线任务延时告警系统、方法及计算机系统
技术领域
本发明涉及大数据技术领域,尤其涉及一种离线任务延时告警系统、方法及计算机系统。
背景技术
随着大数据应用的逐渐普及,大数据场景下分析将得到更大范围的应用,公司离线任务呈几何式增长,目前针对离线任务监控的告警主要提供了失败、超时、关键任务告警等配置
目前针对离线任务监控存在几个问题:需要人工对任务进行配置,工作量大;告警时间全部人工按照经验值进行配置,未能及时提供相应策略进行及时调整。
发明内容
本发明的目的是提供一种离线任务延时告警系统、方法及计算机系统,可以智能、及时、准确发出任务延时告警。
本发明公开了一种离线任务延时告警系统,所述告警系统包括:
采集模块,用于采集系统历史离线任务数据及当前离线任务数据;
历史时间获取模块,用于根据所述历史离线任务数据获取历史离线任务完成时间点;
预测模块,用于根据所述当前离线任务数据预测所述当前离线任务的处理时长;
告警模块,用于根据所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务是否延时,并在延时时发出当前离线任务延时告警。
优选的,所述历史离线任务数据包括历史任务开始时间点和结束时间点,所述当前离线任务数据包括当前离线任务数据量、当前离线任务复杂度及当前离线任务可用资源中的至少一种。
优选的,所述告警系统还包括任务异常剔除模块,用于对所述历史离线任务数据中的异常数据进行剔除;
所述历史时间获取模块,具体用于根据剔除异常数据后的所述历史离线任务数据和TP95计算规则获取历史离线任务完成时间点。
优选的,所述告警模块包括告警计算模块、短信告警模块、监控模块和电话告警模块;
所述告警计算模块,用于计算所述当前离线任务实际执行时间点与所述历史离线任务完成时间点的差值,以及所述差值是否超过所述当前离线任务的预测处理时长时;
所述短信告警模块,用于在所述差值超过所述当前离线任务的预测处理时长时发出短信告警;
所述监控模块,用于在预设时间内未监控到针对所述短信告警的处理反馈信息时发送指令至所述电话告警模块;
所述电话告警模块,用于根据所述指令发出电话告警。
优选的,所述系统还包括上游依赖根任务判断模块,用于判断所述当前离线任务是否具有上游依赖根任务及所述上游依赖根任务是否完成;
所述电话告警模块,具体用于在所述当前离线任务具有上游依赖根任务且所述上游依赖根任务均完成时,若根据所述上游依赖根任务的最大延迟时间、所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务延时且在预设时间内未监控到针对所述短信告警的处理反馈信息时,进行电话告警。
本发明另一方面还公开一种用于所述的离线任务延时告警系统的告警方法,所述告警方法包括步骤:
采集系统历史离线任务数据及当前离线任务数据;
根据所述历史离线任务数据获取历史离线任务完成时间点;
根据所述当前离线任务数据预测所述当前离线任务的处理时长;
根据所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务是否延时,并在延时时发出当前离线任务延时告警。
优选的,
所述历史离线任务数据包括历史任务开始时间点和结束时间点,所述当前离线任务数据包括当前离线任务数据量、当前离线任务复杂度及当前离线任务可用资源中的至少一种。
优选的,所述根据所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务是否延时,并在延时时发出当前离线任务延时告警包括:
计算所述当前离线任务实际执行时间点与所述历史离线任务完成时间点的差值,以及所述差值是否超过所述当前离线任务的预测处理时长时:
在所述差值超过所述当前离线任务的预测处理时长时发出短信告警;
在预设时间内未监控到针对所述短信告警的处理反馈信息时发出电话告警。
优选的,所述方法还包括:
判断所述当前离线任务是否具有上游依赖根任务及所述上游依赖根任务是否完成;
所述在预设时间内未监控到针对所述短信告警的处理反馈信息时发出电话告警时发出电话告警包括:
在所述当前离线任务具有上游依赖根任务且所述上游依赖根任务均完成时,若根据所述上游依赖根任务的最大延迟时间、所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务延时且在预设时间内未监控到针对所述短信告警的处理反馈信息时,进行电话告警。
本发明再一方面还公开一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如上所述的方法。
本发明有益效果:
本发明通过获取历史人物数据完成时间点,结合当前任务的预测执行时长,可自动判断出当前任务的执行是否发生了超过预期的延迟,如是可自动触发告警机制,可智能、及时、准确通知相应的系统负责人员及时处理问题。
进一步的,本发明考虑了任务之间的依赖关系,使得下游任务的延迟判断充分考虑了上游依赖任务的情况,避免了因上游延迟造成的下游任务的大面积告警。
本发明只需满足其中一种效果即可。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:
图1是本发明的一实施例告警系统简化示意图;
图2是本发明的一实施例告警方法的流程图;
图3是本发明的另一实施例任务依赖关系示意图;
图4是本发明计算机系统结构图。
具体实施方式
需要理解的是,这里所使用的术语、公开的具体结构和功能细节,仅仅是为了描述具体实施例,是代表性的,但是本发明可以通过许多替换形式来具体实现,不应被解释成仅受限于这里所阐述的实施例。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示相对重要性,或者隐含指明所指示的技术特征的数量。由此,除非另有说明,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征;“多个”的含义是两个或两个以上。术语“包括”及其任何变形,意为不排他的包含,可能存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
另外,“中心”、“横向”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系的术语,是基于附图所示的方位或相对位置关系描述的,仅是为了便于描述本发明的简化描述,而不是指示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,或是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
随着大数据应用的逐渐普及,大数据场景下分析将得到更大范围的应用,公司离线任务呈几何式增长,目前针对离线任务监控的告警主要提供了失败、超时、关键任务告警等配置。这其中存在几个问题:需要人工对任务进行配置,工作量大;只支持配置短信告警,缺少电话告警升级方式;时间全部人工按照经验值进行配置,未能及时提供相应策略进行及时调整。本发明旨在提供一种获取历史任务的完成时间以及预测的当前任务执行时长,判断当前任务执行时间是否超过了历史时间和当前任务执行时长结合后的时间,以此策略自动完成当前任务的延迟判断,解决了上述问题,并能智能、及时、准确通知相应的系统负责人员及时处理问题。
下面参考附图和可选的实施例对本发明作详细说明。
实施例1
如图1所示,本发明实施例1公开了一种离线任务延时告警系统,所述告警系统100包括采集系统历史离线任务数据及当前离线任务数据的采集模块110、获取历史离线任务完成时间点的历史时间获取模块120、根据所述当前离线任务数据预测当前离线任务的预测处理时长的预测模块130、发出当前离线任务延时告警的告警模块140。其中,所述采集模块110采集系统的历史离线任务数据以及当前离线任务的相关数据,如历史离线任务数据的结束时间点、当前离线任务的任务量、复杂度等。所述历史时间获取模块120从历史数据中获取历史离线任务完成时间点,所述预测模块130根据当前离线任务数据预测当前离线任务的预测处理时长如结合任务复杂度、数据量等进行预测;所述告警模块140根据所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务是否延时,并在延时时发出当前离线任务延时告警。
本发明所述采集模块110采集的历史离线任务数据包括历史离线任务开始时间点和结束时间点等,当前离线任务数据包括任务数据量、任务复杂度和任务资源等。其中,任务复杂度指任务脚本里生成大数据hadoop和spark任务工作数量。任务资源指的是所需求CPU、内存,而具体所需CPU、内存情况,可以基于历史离线任务所需的CPU、内存情况确定。
同一个历史离线任务通常在一定的时间点范围内完成,比如对于每天订单数据的分析处理在当天的晚上9:50-10:10完成,虽具有一定波动,但波动范围不大。以此可以确定一个时间点作为历史离线任务完成时间点,如10:00。考虑到一些特殊情况例如促销活动期间,数据增长幅度太大,致使历史任务数据执行时间偏长,再比如部分任务因为促销活动调整开始时间,避开网络带宽高峰期等原因造成时间点变化,这些数据被称为异常数据,本发明预先将其剔除,以避免影响历史离线任务完成时间点的确定。为此,本发明系统还包括:任务异常剔除模块,用于对所述历史离线任务数据中的异常数据进行剔除,此时历史时间获取模块,具体用于根据剔除异常数据后的所述历史离线任务数据获取历史离线任务完成时间点。
对于剔除异常数据后的历史离线任务完成时间点的确定,历史时间获取模块可以以所有数据的平均值进行计算,也可采用TP95计算规则。TP95(Top Percent 95)指在一个任务时间段内,统计该任务每次任务完成的时间,并将这些时间按从小到大的顺序进行排序,取第95%的那个值作为TP95值。本方案中,获取预设周期内所有任务完成时间TP95时间后,具体的,TP95计算规则可以以一个月为周期,统计任务最晚结束时间,同时考虑大促期间各种特殊情况,则需剔除该期间的数据,然后从小到大进行排序,从中得到95%的值,即是得到预设周期内历史离线任务完成时间点。
此时历史时间获取模块,具体用于根据剔除异常数据后的所述历史离线任务数据和TP95计算规则获取历史离线任务完成时间点。
基于离线任务的各自特殊性以及预警后的人力占用,我们不能仅仅以历史离线任务完成时间点作为当前离线任务的完成时间点,为此,我们需要在历史离线任务完成时间点如TP95的时间基础上增加当前离线任务执行时长的预测,即预测模块130执行的预测。
具体的,预测模块,用于根据离线任务类型,训练历史数据,得到样本数据;线性回归分析样本数据,建立预测模型对当前离线任务的预测处理时长进行预测;
其中,预测模型为:
y=c+wx
式中,y表示预测当前离线任务执行时长。c表示当前离线任务执行时间,是一个常量,标识任务执行的基本时间,例如3分钟。x表示影响y的特征因子,例如任务的复杂度,任务的数据量,任务的资源等。w表示x的权重系数。
历史数据指的是系统下所有任务模型以往时间点数据,主要就是任务完成时间,使用的平台资源等,可以由采集模块获得。通过历史数据训练,可以得出预测模型,例如y=0.1+0.1*x1+0.2*x2+0.33*x3,c、w、x的取值不断通过大量历史数据训练调整。任务用不同的大数据框架处理,如用hadoop、spark处理任务,需按照不同的大数据框架处理的任务,分别做样本数据。
基于上述获得的历史离线任务完成时间点和预测到的当前离线任务的预测处理时长,我们可以对当前离线任务的实际执行时间进行一个判断,如果告警模块在判断到当前离线任务在历史离线任务完成时间点延迟了当前离线任务的处理时长之后仍未完成,此时可进行告警。。
具体的,所述告警模块140还包括告警计算模块141、短信告警模块142。所述告警计算模块141比较当前离线任务执行时长、预测的离线任务处理时间和历史离线任务完成时间,若当前离线任务执行时长大于预测的离线任务处理时长和历史离线任务完成时间之和,所述短信告警模块142发出短信告警。本系统具体通过短信告警的方式解决了大量需要人工配置任务告警的工作,及时准确通知相应的系统负责人员及时处理问题。
所述告警模块140还包括监控模块144和电话告警模块143;所述监控模块144在预设时间内未监控到处理反馈信息,则所述电话告警模块143发出电话告警。在短信告警的基础上,增加电话告警的策略,在夜间能够及时准确通知相应的监控运维人员,进一步确保及时准确通知相应的系统负责人员及时处理问题。
考虑到离线任务下游依赖任务的复杂性,为了避免电话告警风暴,所述电话告警只通知离线任务链路中的异常根任务层级,并满足当前离线任务执行时长不影响到下游任务自身告警规则。此处的电话告警风暴的含义是某个任务出现问题的时候,往往会引发上游或者下游任务也一并报警。
考虑到告警系统监控性能影响,采取的方案是:触发计算延迟的条件为当前任务所依赖的任务全部结束时,把数据库任务依赖关系提前加载到内存,例如是放在本地或者内存数据库,只需要保存任务的上游依赖一级关系,并且任务实际运行完成时间也可以存一份在内存避免频繁查询数据库的操作。
具体结合图3说明,告警系统100包括上游依赖根任务判断模块150,用于判断所述当前离线任务是否具有上游依赖根任务及所述上游依赖根任务是否完成,若根据所述上游依赖根任务的最大延迟时间、所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务延时且在预设时间内未监控到针对所述短信告警的处理反馈信息时,进行电话告警。
具体的,当线程定时监控扫描所有任务链路状态为非完成的根任务时,计算规则如下:
1)假设获取到其中一个未完成的根任务C节点时,则判断任务C上游无依赖任务,则p=0;则停止计算,退出当前任务判断。退出当前任务判断后,直接更新任务C的电话告警规则。
2)假设上游依赖任务为A和B,则判断是否任务A和B是否都正常完成,若其中有一个任务未完成,则退出当前任务判断。当任务A和B都完成则进行下一步判断。
3)获取任务A实际差值时间t1=任务A实际完成时间-任务C的TP95开始执行时间,以得出任务C执行时间是否延迟;获取任务B实际差值时间t2=任务B实际完成时间-任务C的TP95开始执行时间,则获取t1和t2两者中的最大值t。
4)获取最终任务C的电话告警延迟时间P:若t<=0,则p=0;若t>0,则p=t,此时则更新任务C的电话告警规则值。
此处,P主要是指因为任务自身因为依赖的上游任务的问题处理导致的延时时间,也就是上游依赖任务若出现问题后,开发人员处理完问题所需要消耗的时间。
为了防止有的上游任务出现问题时处理时间过长,按照上述方案设计导致下游任务通常只会收到短信告警。为了保障核心任务的稳定性,告警系统100增加支持对核心任务独立配置电话告警功能,例如可以直接用默认短信告警的规则,忽略其他任务依赖的时间,或者直接配置临界时间点,一旦任务到监控时间点未完成则立即电话通知监控人员。核心任务可以指的是涉及销售数据的任务,比如订单、营销任务相关的数据。
需要注意到的是,电话升级告警规则为任务最晚结束TP95时间+当前离线任务预测执行时长相对于历史任务的延时时间+电话告警延迟时间。任务默认的电话告警延迟时间为0。
实施例2
作为本发明的另一实施例,如图2所示,还公开了一种用于上述告警系统的告警方法,所述告警方法包括步骤:
S21、采集系统历史离线任务数据及当前离线任务数据;
S22、根据所述历史离线任务数据获取历史离线任务完成时间点;
S23、根据所述当前离线任务数据预测所述当前离线任务的处理时长;
S24、根据所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务是否延时,并在延时时发出当前离线任务延时告警。
本发明具体的,所述S21包括:
剔除预设周期内异常的历史离线任务完成时间;
根据TP95计算规则,得到预设周期内历史离线任务完成时间。
TP95(Top Percent 95)指在一个任务时间段内,统计该任务每次任务完成的时间,并将这些时间按从小到大的顺序进行排序,取第95%的那个值作为TP95值。本方案中,获取预设周期内所有任务完成时间TP95时间后,具体的,TP95计算规则可以以一个月为周期,统计任务最晚结束时间,同时考虑大促期间各种特殊情况,则需剔除该期间的数据,然后从小到大进行排序,从中得到95%的值,即是得到预设周期内历史离线任务完成时间。
由于上述获取的TP95时间只是基于任务历史实际完成时间为标准,考虑到离线任务的告警特殊性,需要在TP95的时间基础上增加针对当前离线任务执行时长自身超时时间的预警判断。因此。所述S22预步骤包括:
根据离线任务类型,训练历史数据,得到样本数据;
线性回归分析样本数据,建立预测模型;
其中,预测模型为:
y=c+wx
式中,y表示预测当前离线任务执行时长。c表示当前离线任务执行时间,是一个常量,标识任务执行的基本时间,例如3分钟。x表示影响y的特征因子,例如任务的复杂度,任务的数据量,任务的资源等。w表示x的权重系数。
历史数据指的是系统下所有任务模型以往时间点数据,主要就是任务完成时间,使用的平台资源等。通过历史数据训练,可以得出预测模型,例如y=0.1+0.1*x1+0.2*x2+0.33*x3,c、w、x的取值不断通过大量历史数据训练调整。任务用不同的大数据框架处理,如用hadoop、spark处理任务,需按照不同的大数据框架处理的任务,分别做样本数据。
步骤S23包括:
比较当前离线任务执行时长、预测的离线任务处理时间和历史离线任务完成时间,若当前离线任务执行时长大于预测的离线任务处理时间和历史离线任务完成时间之和,发出短信告警;
发出短信告警后,在预设时间内未监控到处理反馈信息,则发出电话告警。
上述方法中,例如得到的预测的离线任务处理时间为T1,定时监控当前离线任务执行时长为T2,从中获取T=T1–T2,如果T<0,则T=0。默认告警时间为:TP95+T(即是预测的离线任务处理时间和历史离线任务完成时间之和),其中T最大值可以具体为30分钟,当任务超过默认告警时间,系统会发出短信告警。
当监控人员收到短信告警后,监控人员需在预设时间内及时反馈,预设时间内可以是5分钟,当然也可以根据实际需求设置为其他数值。5分钟内告警系统100收到已处理反馈信息,则告警不升级。反之如果未收到反馈信息,则短信告警升级成电话告警。
考虑到离线任务下游依赖任务的复杂性,为了避免电话告警风暴,所述电话告警只通知离线任务链路中的异常根任务层级,并满足当前离线任务执行时长不影响到下游任务自身告警规则。此处的电话告警风暴的含义是某个任务出现问题的时候,往往会引发上游或者下游任务也一并报警。
考虑到监控性能影响,采取的方案是:触发计算延迟的条件为当前任务所依赖的任务全部结束时,把数据库任务依赖关系提前加载到内存,例如是放在本地或者内存数据库,只需要保存任务的上游依赖一级关系,并且任务实际运行完成时间也可以存一份在内存避免频繁查询数据库的操作。
具体结合图3说明,线程定时监控扫描所有任务链路状态为非完成的根任务时,计算规则如下:
1)假设获取到其中一个未完成的根任务C节点时,则判断任务C上游无依赖任务,则p=0;则停止计算,退出当前任务判断。退出当前任务判断后,直接更新任务C的电话告警规则。
2)假设上游依赖任务为A和B,则判断是否任务A和B是否都正常完成,若其中有一个任务未完成,则退出当前任务判断。当任务A和B都完成则进行下一步判断。
3)获取任务A实际差值时间t1=任务A实际完成时间-任务C的TP95开始执行时间,以得出任务C执行时间是否延迟;获取任务B实际差值时间t2=任务B实际完成时间-任务C的TP95开始执行时间,则获取t1和t2两者中的最大值t。
4)获取最终任务C的电话告警延迟时间P:若t<=0,则p=0;若t>0,则p=t,此时则更新任务C的电话告警规则值。
此处,P主要是指因为任务自身因为依赖的上游任务的问题处理导致的延时时间,也就是上游依赖任务若出现问题后,开发人员处理完问题所需要消耗的时间。
为了防止有的上游任务出现问题时处理时间过长,按照上述方案设计导致下游任务只会收到短信告警,为了保障核心任务的稳定性,告警系统100增加支持对核心任务独立配置电话告警功能,例如可以直接用默认短信告警的规则,忽略其他任务依赖的时间,或者直接配置临界时间点,一旦任务到监控时间点未完成则立即电话通知监控人员。核心任务可以指的是涉及销售数据的任务,比如订单、营销任务相关的数据。
需要注意到的是,电话升级告警规则为任务最晚结束TP95时间+当前离线任务预测执行时长相对于历史任务的延时时间+电话告警延迟时间。任务默认的电话告警延迟时间为0。
实施例3
对应上述方法和装置,本发明实施例3提供一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
采集系统历史离线任务数据及当前离线任务数据;
根据所述历史离线任务数据获取历史离线任务完成时间点;
根据所述当前离线任务数据预测所述当前离线任务的处理时长;
根据所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务是否延时,并在延时时发出当前离线任务延时告警。
其中,图4示例性的展示出了计算机系统的架构,具体可以包括处理器1510,视频显示适配器1511,磁盘驱动器1512,输入/输出接口1513,网络接口1514,以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520之间可以通过通信总线1530进行通信连接。
其中,处理器1510可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明所提供的技术方案。
存储器1520可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521,用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器1523,数据存储管理系统1524,以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本发明实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本发明所提供的技术方案时,相关的程序代码保存在存储器1520中,并由处理器1510来调用执行。
输入/输出接口1513用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口1514用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1530包括一通路,在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520)之间传输信息。
另外,该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,存储器1520,总线1530等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本发明方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明所提供的告警系统、方法及计算机系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种离线任务延时告警系统,其特征在于,所述告警系统包括:
采集模块,用于采集系统历史离线任务数据及当前离线任务数据;
历史时间获取模块,用于根据所述历史离线任务数据获取历史离线任务完成时间点;
预测模块,用于根据所述当前离线任务数据预测所述当前离线任务的处理时长;
告警模块,用于根据所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务是否延时,并在延时时发出当前离线任务延时告警。
2.如权利要求1所述的一种离线任务延时告警系统,其特征在于,所述历史离线任务数据包括历史任务开始时间点和结束时间点,所述当前离线任务数据包括当前离线任务数据量、当前离线任务复杂度及当前离线任务可用资源中的至少一种。
3.如权利要求2所述的一种离线任务延时告警系统,其特征在于,所述告警系统还包括任务异常剔除模块,用于对所述历史离线任务数据中的异常数据进行剔除;
所述历史时间获取模块,具体用于根据剔除异常数据后的所述历史离线任务数据和TP95计算规则获取历史离线任务完成时间点。
4.如权利要求1所述的一种离线任务延时告警系统,其特征在于,所述告警模块包括告警计算模块、短信告警模块、监控模块和电话告警模块;
所述告警计算模块,用于计算所述当前离线任务实际执行时间点与所述历史离线任务完成时间点的差值,以及所述差值是否超过所述当前离线任务的预测处理时长时;
所述短信告警模块,用于在所述差值超过所述当前离线任务的预测处理时长时发出短信告警;
所述监控模块,用于在预设时间内未监控到针对所述短信告警的处理反馈信息时发送指令至所述电话告警模块;
所述电话告警模块,用于根据所述指令发出电话告警。
5.如权利要求1所述的一种离线任务延时告警系统,其特征在于,所述系统还包括上游依赖根任务判断模块,用于判断所述当前离线任务是否具有上游依赖根任务及所述上游依赖根任务是否完成;
所述电话告警模块,具体用于在所述当前离线任务具有上游依赖根任务且所述上游依赖根任务均完成时,若根据所述上游依赖根任务的最大延迟时间、所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务延时且在预设时间内未监控到针对所述短信告警的处理反馈信息时,进行电话告警。
6.一种用于权利要求1至5任意一项所述的离线任务延时告警系统的告警方法,其特征在于,所述告警方法包括步骤:
采集系统历史离线任务数据及当前离线任务数据;
根据所述历史离线任务数据获取历史离线任务完成时间点;
根据所述当前离线任务数据预测所述当前离线任务的处理时长;
根据所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务是否延时,并在延时时发出当前离线任务延时告警。
7.如权利要求6所述的一种告警方法,其特征在于,
所述历史离线任务数据包括历史任务开始时间点和结束时间点,所述当前离线任务数据包括当前离线任务数据量、当前离线任务复杂度及当前离线任务可用资源中的至少一种。
8.如权利要求6所述的一种告警方法,其特征在于,所述根据所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务是否延时,并在延时时发出当前离线任务延时告警包括:
计算所述当前离线任务实际执行时间点与所述历史离线任务完成时间点的差值,以及所述差值是否超过所述当前离线任务的预测处理时长时:
在所述差值超过所述当前离线任务的预测处理时长时发出短信告警;
在预设时间内未监控到针对所述短信告警的处理反馈信息时发出电话告警。
9.如权利要求8所述的一种告警方法,其特征在于,所述方法还包括:
判断所述当前离线任务是否具有上游依赖根任务及所述上游依赖根任务是否完成;
所述在预设时间内未监控到针对所述短信告警的处理反馈信息时发出电话告警时发出电话告警包括:
在所述当前离线任务具有上游依赖根任务且所述上游依赖根任务均完成时,若根据所述上游依赖根任务的最大延迟时间、所述当前离线任务实际执行时间点、所述历史离线任务完成时间点、所述当前离线任务的预测处理时长判断所述当前离线任务延时且在预设时间内未监控到针对所述短信告警的处理反馈信息时,进行电话告警。
10.一种计算机系统,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如权利要求6-9任意一项所述的方法。
CN201911177850.8A 2019-11-26 2019-11-26 一种离线任务延时告警系统、方法及计算机系统 Pending CN111010292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911177850.8A CN111010292A (zh) 2019-11-26 2019-11-26 一种离线任务延时告警系统、方法及计算机系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911177850.8A CN111010292A (zh) 2019-11-26 2019-11-26 一种离线任务延时告警系统、方法及计算机系统

Publications (1)

Publication Number Publication Date
CN111010292A true CN111010292A (zh) 2020-04-14

Family

ID=70112008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911177850.8A Pending CN111010292A (zh) 2019-11-26 2019-11-26 一种离线任务延时告警系统、方法及计算机系统

Country Status (1)

Country Link
CN (1) CN111010292A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625352A (zh) * 2020-05-18 2020-09-04 杭州数澜科技有限公司 调度方法、装置及存储介质
CN111815059A (zh) * 2020-07-13 2020-10-23 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111813518A (zh) * 2020-06-29 2020-10-23 中国平安人寿保险股份有限公司 机器人预警方法、装置、计算机设备及存储介质
CN111913796A (zh) * 2020-08-12 2020-11-10 杭州安恒信息技术股份有限公司 离线系统延时调度时间间隔的生成方法和延时调度方法
CN112085289A (zh) * 2020-09-17 2020-12-15 广州华多网络科技有限公司 程序维护任务处理方法、装置、设备及存储介质
CN112232649A (zh) * 2020-10-09 2021-01-15 杭州拼便宜网络科技有限公司 一种任务处理评估方法及其系统、设备
CN112667976A (zh) * 2021-03-18 2021-04-16 深圳佳兆业科技集团有限公司 离线任务处理方法、装置、计算机设备和存储介质
CN112735104A (zh) * 2020-12-16 2021-04-30 青岛海尔科技有限公司 一种异常告警处理方法及装置
CN113220542A (zh) * 2021-04-01 2021-08-06 深圳市云网万店科技有限公司 一种计算任务的预警方法、装置、计算机设备及存储介质
CN113762906A (zh) * 2020-08-12 2021-12-07 北京沃东天骏信息技术有限公司 任务周期延迟的告警方法、装置、设备及存储介质
CN114241731A (zh) * 2021-12-20 2022-03-25 江苏丰东热技术有限公司 可控气氛热处理炉自动搬送过程的警示方法及装置
CN116582828A (zh) * 2023-07-14 2023-08-11 深圳市诚立业科技发展有限公司 一种基于人工智能的智能化场景短信服务系统及方法
CN117130873A (zh) * 2023-10-26 2023-11-28 中国证券登记结算有限责任公司 一种任务监控的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150026949A1 (en) * 2011-06-09 2015-01-29 Matson, Inc. Portable Drip Containment Device Apparatus and Method
WO2017167021A1 (zh) * 2016-03-28 2017-10-05 阿里巴巴集团控股有限公司 异常监控方法及装置
CN108255681A (zh) * 2018-02-09 2018-07-06 腾讯科技(北京)有限公司 任务告警方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150026949A1 (en) * 2011-06-09 2015-01-29 Matson, Inc. Portable Drip Containment Device Apparatus and Method
WO2017167021A1 (zh) * 2016-03-28 2017-10-05 阿里巴巴集团控股有限公司 异常监控方法及装置
CN108255681A (zh) * 2018-02-09 2018-07-06 腾讯科技(北京)有限公司 任务告警方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625352A (zh) * 2020-05-18 2020-09-04 杭州数澜科技有限公司 调度方法、装置及存储介质
CN111813518A (zh) * 2020-06-29 2020-10-23 中国平安人寿保险股份有限公司 机器人预警方法、装置、计算机设备及存储介质
CN111815059A (zh) * 2020-07-13 2020-10-23 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111815059B (zh) * 2020-07-13 2021-04-23 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111913796B (zh) * 2020-08-12 2024-03-26 杭州安恒信息技术股份有限公司 离线系统延时调度时间间隔的生成方法和延时调度方法
CN111913796A (zh) * 2020-08-12 2020-11-10 杭州安恒信息技术股份有限公司 离线系统延时调度时间间隔的生成方法和延时调度方法
CN113762906B (zh) * 2020-08-12 2024-07-19 北京沃东天骏信息技术有限公司 任务周期延迟的告警方法、装置、设备及存储介质
CN113762906A (zh) * 2020-08-12 2021-12-07 北京沃东天骏信息技术有限公司 任务周期延迟的告警方法、装置、设备及存储介质
CN112085289A (zh) * 2020-09-17 2020-12-15 广州华多网络科技有限公司 程序维护任务处理方法、装置、设备及存储介质
CN112085289B (zh) * 2020-09-17 2024-10-15 广州方硅信息技术有限公司 程序维护任务处理方法、装置、设备及存储介质
CN112232649A (zh) * 2020-10-09 2021-01-15 杭州拼便宜网络科技有限公司 一种任务处理评估方法及其系统、设备
CN112735104A (zh) * 2020-12-16 2021-04-30 青岛海尔科技有限公司 一种异常告警处理方法及装置
CN112667976A (zh) * 2021-03-18 2021-04-16 深圳佳兆业科技集团有限公司 离线任务处理方法、装置、计算机设备和存储介质
CN113220542A (zh) * 2021-04-01 2021-08-06 深圳市云网万店科技有限公司 一种计算任务的预警方法、装置、计算机设备及存储介质
CN114241731A (zh) * 2021-12-20 2022-03-25 江苏丰东热技术有限公司 可控气氛热处理炉自动搬送过程的警示方法及装置
CN116582828A (zh) * 2023-07-14 2023-08-11 深圳市诚立业科技发展有限公司 一种基于人工智能的智能化场景短信服务系统及方法
CN116582828B (zh) * 2023-07-14 2023-09-22 深圳市诚立业科技发展有限公司 一种基于人工智能的智能化场景短信服务系统及方法
CN117130873A (zh) * 2023-10-26 2023-11-28 中国证券登记结算有限责任公司 一种任务监控的方法和装置
CN117130873B (zh) * 2023-10-26 2024-01-26 中国证券登记结算有限责任公司 一种任务监控的方法和装置

Similar Documents

Publication Publication Date Title
CN111010292A (zh) 一种离线任务延时告警系统、方法及计算机系统
CN110880984B (zh) 基于模型的流量异常监测方法、装置、设备及存储介质
EP3860052A1 (en) Method and device for monitoring bandwidth state
CN112712113B (zh) 一种基于指标的告警方法、装置及计算机系统
US6973415B1 (en) System and method for monitoring and modeling system performance
JP4502414B2 (ja) 生産管理情報出力装置及び生産管理情報出力方法
CA3230388A1 (en) Method of and device for monitoring business data, method of and device for generating rule data, and system
CN111324511B (zh) 报警规则的生成方法、装置、电子设备及存储介质
CN109933501B (zh) 一种应用系统的容量评估方法及装置
US20230004475A1 (en) Method and Apparatus for Determining Collection Frequency, Computer Device, and Storage Medium
CN111339062B (zh) 数据监控方法、装置、电子设备及存储介质
CN112565391A (zh) 调整工业互联网平台中实例的方法、装置、设备和介质
CN114500318B (zh) 一种批量作业监控方法及装置、设备及介质
CN112883253A (zh) 数据处理方法、装置、设备及可读存储介质
CN107168846A (zh) 电子设备的监控方法及装置
CN116974869A (zh) 指标数据监控方法、装置、电子设备和存储介质
CN111258866A (zh) 计算机性能预测方法、装置、设备及可读存储介质
CN108122036B (zh) 一种变电站带电运检辅助分析方法
CN107357703B (zh) 一种终端应用耗电检测方法及服务器
CN112311599B (zh) 云资源余量报警方法、装置及服务器
CN108737164A (zh) 一种电信网络实时告警过滤方法及装置
CN114861909A (zh) 模型质量监控方法、装置、电子设备以及存储介质
CN113548588A (zh) 一种倾翻风险预测方法、装置及系统
CN112463541A (zh) 一种数据监控方法及系统
CN112817713A (zh) 作业调度方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200414

RJ01 Rejection of invention patent application after publication