CN109558292A

CN109558292A - 一种监控方法及装置

Info

Publication number: CN109558292A
Application number: CN201710881004.9A
Authority: CN
Inventors: 翁忠杰; 曾文秋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2019-04-02

Abstract

一种监控方法，包括：根据业务的产出路径，确定待监控的目标任务组；监控出现异常的任务时，确定该任务的关键路径，关键路径是指使得该任务在预期完成时刻完成的上游链路；将得到的出现异常的任务的关键路径发送给用户，以便业务的产出路径进行优化。如此，实现业务运行中任务的有效自动监控。

Description

一种监控方法及装置

技术领域

本发明涉及数据处理技术，尤其涉及一种监控方法及装置。

背景技术

目前，数据平台上运行的任务数量不断增加，任务之间的依赖关系越来越复杂。当整个数据平台中的任务达到一定数量时，通过人工操作无法有效梳理出需要监控的任务，也无法有效合理地对每个任务进行报警设置，从而导致无法对数据平台上运行的任务进行有效监控。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供一种监控方法及装置，实现对任务的有效自动监控。

第一方面，本申请实施例提供一种监控方法，包括：

根据业务的产出路径，确定待监控的目标任务组；

监控出现异常的任务时，确定该任务的关键路径，关键路径是指使得该任务在预期完成时刻完成的上游链路；

将得到的出现异常的任务的关键路径发送给用户，以便业务的产出路径进行优化。

在示例性实施方法中，所述确定待监控的目标任务组之后，上述方法还可以包括：监控出现异常的任务时，确定该任务对应的报警事件，根据所述报警事件，将得到的出现异常的任务的报警信息发送给用户，以便维持业务的正常运行。

第二方面，本申请实施例提供一种监控装置，包括：存储器、处理器以及存储在所述存储器上并在所述处理器上运行的监控程序，所述监控程序被所述处理器执行时实现以下操作：

根据业务的产出路径，确定待监控的目标任务组；监控出现异常的任务时，确定该任务的关键路径，关键路径是指使得该任务在预期完成时刻完成的上游链路；将得到的出现异常的任务的关键路径发送给用户，以便业务的产出路径进行优化。

第三方面，本申请实施例提供一种监控方法，包括：

根据在待监控的业务中定义的一个或多个基线任务，确定所述业务运行中待监控的目标任务组，其中，所述目标任务组中包括全部基线任务以及任一基线任务的上游任务；

监控所述目标任务组。

在示例性实施方式中，所述基线任务可以包括所述待监控的业务中产出设定信息的任务。

在示例性实施方式中，所述根据在待监控的业务中定义的一个或多个基线任务，确定所述业务运行中待监控的目标任务组，可以包括：

针对任一基线任务，通过遍历所述基线任务所在的有向无环图(DAG)，确定所述基线任务的上游任务；

将全部基线任务以及任一基线任务的上游任务确定为包括在待监控的目标任务组中。

在示例性实施方式中，所述监控所述目标任务组，可以包括：

针对所述目标任务组中的任一任务，在检测到所述任务运行异常时，生成报警事件；

根据所述报警事件，确定接收报警信息的对象、发出报警信息的时刻以及方式。

在示例性实施方式中，所述在检测到所述任务运行异常时，生成报警事件，可以包括以下至少之一：

在检测到所述任务运行失败时，生成出错报警事件；

在检测到所述任务的本次运行时长与平均运行时长的差值大于或等于阈值时，生成变慢报警事件。

在示例性实施方式中，所述根据所述报警事件，确定发出报警信息的时刻以及方式，可以包括：

根据所述报警事件的类型、所述报警事件的生成时刻以及所述运行异常的任务能够被允许拖延开始的最大时长，确定发出报警信息的时刻；

根据所述报警事件的类型、所述发出报警信息的时刻以及所述运行异常的任务能够被允许拖延开始的最大时长，确定发出报警信息的方式。

在示例性实施方式中，所述根据所述报警事件的类型、所述报警事件的生成时刻以及所述运行异常的任务能够被允许拖延开始的最大时长，确定发出报警信息的时刻，可以包括：

在所述报警事件为出错报警事件时，若所述报警事件的生成时刻不满足第一时间范围，则判断所述运行异常的任务能够被允许拖延开始的最大时长是否满足第一条件；若所述最大时长满足第一条件，则确定在设定时刻发出报警信息；若所述最大时长不满足第一条件，则确定在所述报警事件的生成时刻发出报警信息；若所述报警事件的生成时刻满足第一时间范围，则确定在所述报警事件的生成时刻发出报警信息；

在所述报警事件为变慢报警事件时，若所述报警事件的生成时刻不满足第一时间范围，或者，所述运行异常的任务能够被允许拖延开始的最大时长满足第二条件，则确定在所述报警事件的生成时刻发出报警信息；若所述报警事件的生成时刻满足第一时间范围，则根据所述目标任务的期望完成时刻，确定发出报警信息的时刻。

在示例性实施方式中，所述根据所述报警事件的类型、所述发出报警信息的时刻以及所述运行异常的任务能够被允许拖延开始的最大时长，确定发出报警信息的方式，可以包括：

在所述报警事件为出错报警事件时，若所述发出报警信息的时刻不满足第一时间范围，或者，若所述发出报警信息的时刻满足第一时间范围且所述运行异常的任务能够被允许拖延开始的最大时长满足第三条件，则确定采用第一方式发出报警信息；若所述发出报警信息的时刻满足第一时间范围且所述运行异常的任务能够被允许拖延开始的最大时长不满足第三条件，则确定采用第二方式发出报警信息；

在所述报警事件为变慢报警事件时，若所述发出报警信息的时刻不满足第一时间范围，或者，若所述发出报警信息的时刻满足第一时间范围且所述运行异常的任务能够被允许拖延开始的最大时长满足第四条件，则确定采用第二方式发出报警信息；若所述发出报警信息的时刻满足第一时间范围且所述运行异常的任务能够被允许拖延开始的最大时长不满足第四条件，则确定采用第三方式发出报警信息。

在示例性实施方式中，所述监控所述目标任务组还可以包括：若检测到在发出报警信息之后的设定时长内未关闭所述报警事件，则更新接收所述报警信息的对象，向更新后的对象发出所述报警信息。

预测所述基线任务的最晚完成时刻；比较所述基线任务的最晚完成时刻和所述基线任务的预警时刻，若所述最晚完成时刻晚于所述预警时刻，则进行预警操作。

针对所述目标任务组中的任一任务，确定所述任务的关键路径；其中，所述关键路径是指使得所述任务在预期完成时刻完成的上游链路；

根据所述任务的关键路径，识别所述业务运行中的风险任务。

第四方面，本申请实施例提供一种监控装置，包括：

目标任务组确定模块，适于根据在待监控的业务中定义的一个或多个基线任务，确定所述业务运行中待监控的目标任务组，其中，所述目标任务组中包括全部基线任务以及任一基线任务的上游任务；

监控模块，适于监控所述目标任务组。

在示例性实施方式中，所述监控模块可以适于通过以下方式监控所述目标任务组：

第五方面，本申请实施例提供一种监控方法，包括：

构建一个或多个DAG；

确定所述DAG中任一任务的基础数据；

根据所述任务的基础数据以及在待监控的业务中定义的一个或多个基线任务，对所述业务运行中的目标任务组进行监控，其中，所述目标任务组包括：所述业务中定义的全部基线任务以及任一基线任务在DAG中的上游任务。

在示例性实施方式中，所述任务的基础数据可以包括以下信息：所述任务的预期完成时刻、使得所述任务在预期完成时刻完成的上游链路、所述任务所属的业务要求的完成时刻、所述任务是否处于暂停任务的下游。

第六方面，本申请实施例提供一种监控系统，包括：

DAG计算模块，适于构建一个或多个DAG，并确定所述DAG中任一任务的基础数据；

业务计算模块，适于根据所述任务的基础数据以及在待监控的业务中定义的一个或多个基线任务，对所述业务运行中的目标任务组进行监控，其中，所述目标任务组包括所述业务中定义的全部基线任务以及任一基线任务在DAG中的上游任务。

在示例性实施方式中，上述系统还可以包括：数据库，适于存储所述任务的基础数据以及对所述目标任务组的监控结果。

第七方面，本申请实施例提供一种监控装置，包括：存储器、处理器以及存储在所述存储器上并在所述处理器上运行的监控程序，所述监控程序被所述处理器执行时实现以下操作：

根据在待监控的业务中定义的一个或多个基线任务，确定所述业务运行中待监控的目标任务组，其中，所述目标任务组中包括全部基线任务以及任一基线任务的上游任务；监控所述目标任务组。

第八方面，本申请实施例提供一种计算机可读介质，存储有监控程序，所述监控程序被处理器执行时实现以下操作：

在本申请实施例中，根据业务的产出路径，确定待监控的目标任务组；监控出现异常的任务时，确定该任务的关键路径，关键路径是指使得该任务在预期完成时刻完成的上游链路；将得到的出现异常的任务的关键路径发送给用户，以便业务的产出路径进行优化。如此，实现对业务运行过程中的任务进行有效自动监控，确保业务的正常运行。

在示例性实施例中，通过在待监控的业务中定义的一个或多个基线任务，确定该业务运行中待监控的目标任务组，实现监控基线任务以及基线任务的上游任务，从而实现对数据平台上大量任务的有效自动监控。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

图1为本申请实施例提供的监控系统的架构示意图；

图2为本申请实施例的基线任务的示意图；

图3为本申请实施例提供的一种监控方法的流程图；

图4为本申请实施例提供的另一种监控方法的流程图；

图5为本申请实施例中任务余量的计算示意图；

图6为本申请实施例提供的一种监控装置的示意图；

图7为本申请实施例提供的另一种监控方法的流程图；

图8为本申请实施例提供的另一种监控装置的示意图。

具体实施方式

以下结合附图对本申请实施例进行详细说明，应当理解，以下所说明的实施例仅用于说明和解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例以及实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

一些实施方式中，执行监控方法的计算设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存(memory)。

内存可能包括计算机可读介质中的非永久性存储器、随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。内存可能包括模块1，模块2，……，模块N(N为大于2的整数)。

计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)，快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1为本实施例提供的一种监控系统的架构示意图。本实施例提供的监控系统可以部署在一个或多个服务端计算设备(比如，服务器)。本实施例提供的监控系统用于监控数据平台上运行的任务。其中，任务指对数据进行处理的作业。本实施例提供的监控系统可以连接数据平台，从待监控的数据平台调度任务的执行情况进行分析和监控。

如图1所示，本实施例提供的监控系统包括：有向无环图(DAG，Directed AcyclicGraph)计算模块(dagservice)101以及业务计算模块(taskservice)102。

其中，DAG计算模块101适于构建一个或多个DAG，并确定任一DAG中任一任务的基础数据；业务计算模块102适于根据DAG计算模块101确定的基础数据以及在待监控的业务中定义的一个或多个基线任务，对该业务运行中的目标任务组进行监控，其中，目标任务组中包括全部基线任务以及任一基线任务在DAG中的上游任务。

如图1所示，本实施例的监控系统还可以包括：数据库103(比如，mysql)以及服务接口104(比如，http接口)。其中，数据库103适于存储DAG计算模块101得到的基础数据，以及业务计算模块102得到的对目标任务组中任一任务的监控结果，比如，报警信息等。服务接口104适于给用户提供访问监控系统的接口，用户可以通过服务接口104访问数据库103中存储的信息，比如，任务的报警信息等。

在本实施例中，DAG计算模块101可以从数据平台的数据库100(比如，postgre数据库)加载元数据(比如，元数据可以包括：任务的名称、任务的状态、任务开始运行的时刻、任务结束运行的时刻、任务的上下游关系、任务的其他运行信息等)，并根据加载的元数据，构建一个或多个DAG。

在示例性实施方式中，DAG计算模块101可以包括控制单元、数据加载单元以及算法单元；数据加载单元适于从数据平台的数据库100加载元数据，控制单元适于根据算法单元内的算法处理加载的元数据，构建一个或多个DAG。然而，本申请对此并不限定。

本实施例中，一个业务最终产生的数据可以根据一个或多个任务的执行结果确定。其中，用户可以结合数据平台上运行的业务的产出路径定义基线任务，即将业务的产出路径中的一个或多个任务定义为基线任务。基线任务可以包括待监控的业务中产出设定信息的任务，比如，基线任务可以包括一个业务中产出最重要信息的任务。然而，本申请对此并不限定。在其他实现方式中，监控系统也可以根据所监控的业务所涉及的任务自动进行基线任务的定义。

图2为本实施例的基线任务的示意图。如图2所示，以包括六个任务(任务A至任务F)的DAG为例，其中，基线任务包括任务D和任务E，任务D的上游任务包括：任务B和任务A，任务E的上游任务包括：任务B和任务A，因此，可以确定待监控的目标任务组中包括任务A、任务B、任务D和任务E，即可以将任务D和任务E以及它们所有的上游任务全部都纳入监控范围。也就是说，监控系统可以监控到图2中任务A、B、D、E是否出现异常，但是，对于任务C和任务F无论发生什么情况，监控系统都将置之不理。

本实施例中，DAG计算模块101可以对构建的任一个DAG上的任务进行分析，并计算任一个任务的基础数据。比如，DAG计算模块101可以根据基线任务的设置信息、任一任务的平均运行时长，计算任务的基础数据。其中，基线任务的设置信息可以包括：基线任务的承诺完成时刻、基线任务的预警时刻、基线任务的优先级。任务的平均运行时长可以根据设定时间段内任务的多次运行时长的平均值确定。其中，一个任务的基础数据可以包括以下信息：该任务的预期完成时刻、使得该任务在预期完成时刻完成的上游链路(比如，上游最慢链路)、该任务所属的业务要求的完成时刻、该任务是否处于暂停任务的下游。然而，本申请对此并不限定。

其中，DAG计算模块101得到任务的基础数据之后，可以将任务的基础数据存储在数据库103中，以便提供给业务计算模块102进行处理。

本实施例中，业务计算模块102适于根据DAG计算模块101分析得到的任务的基础数据，执行不同的计算任务；比如，业务计算模块102可以执行以下计算任务：计算基线任务的预测完成时刻、抓取和关闭报警事件、确定任务报警、确定基线任务报警、确定升级报警等。

在示例性实施方式中，针对目标任务组中的任一任务，业务计算模块102可以在检测到该任务运行异常时，生成报警事件；根据生成的报警事件，确定接收报警信息的对象、发出报警信息的时刻以及方式。

比如，业务计算模块102在检测到目标任务组中任一任务运行失败时，可以生成出错报警事件，或者，在检测到该任务的本次运行时长与平均运行时长的差值大于或等于阈值时，生成变慢报警事件。

在示例性实施方式中，业务计算模块102可以预测基线任务的最晚完成时刻；比较该基线任务的最晚完成时刻和该基线任务的预警时刻，若该最晚完成时刻晚于该预警时刻，则进行预警操作，比如，直接给设定的报警对象拨打电话。

其中，业务计算模块102可以根据DAG计算模块101计算的基线任务的基础数据，确定基线任务的最晚完成时刻；比如，基线任务包括任务D和任务E，任务D的预期完成时刻为T1，任务E的预期完成时刻为T2，且T1晚于T2，则基线任务的最晚完成时刻即为T1。

在示例性实施方式中，针对目标任务组中的任一任务，业务计算模块102可以根据该任务的关键路径，识别风险任务；其中，关键路径是指使得该任务在预期完成时刻完成的上游链路，比如，上游最慢链路。

其中，业务计算模块102可以根据DAG计算模块101计算的基线任务和其上游任务的基础数据，确定目标任务组中任一任务的关键路径。在确定目标任务组中的全部任务的关键路径之后，综合一个业务相关的多个任务的关键路径，可以识别出该业务产出的风险任务，进而便于优化该业务的产出路径，以保证该业务的正常运行；比如，根据从该业务的产出路径识别出的风险任务，检查该业务涉及的任务的依赖关系是否合理，若不合理，则对该业务涉及的任务运行代码进行优化，或者对该业务所在的数据平台进行优化。

图3所示为本申请实施例提供的一种监控方法的流程图。如图3所示，本实施例提供的监控方法，包括：

S301、构建一个或多个DAG；

S302、确定DAG中任一任务的基础数据；

S303、根据任务的基础数据以及在待监控的业务中定义的一个或多个基线任务，对该业务运行中的目标任务组进行监控，其中，目标任务组包括：该业务中定义的全部基线任务以及任一基线任务在DAG中的上游任务。

其中，任务的基础数据可以包括以下信息：该任务的预期完成时刻、使得该任务在预期完成时刻完成的上游链路(比如，上游最慢链路)、该任务所属的业务要求的完成时刻、该任务是否处于暂停任务的下游。

关于本实施例的监控方法的实现过程可以参照对本实施例的图1所示的监控系统的说明，故于此不再赘述。

图4所示为本申请实施例提供的另一种监控方法的流程图。如图4所示，本实施例提供的监控方法包括：

S401、根据在待监控的业务中定义的一个或多个基线任务，确定该业务运行中待监控的目标任务组，其中，目标任务组中包括全部基线任务以及任一基线任务的上游任务；

S402、监控目标任务组。

本实施例的监控方法可以由图1所示的监控系统执行。然而，本申请对此并不限定。

其中，S401可以包括：

针对任一个基线任务，通过遍历该基线任务所在的DAG，确定该基线任务的上游任务；

本实施例中，通过设置基线任务来实现强保障监控效果，即基线任务以及基线任务上游的所有任务都会被监控起来。也就是说，强保障监控并不默认监控数据平台上运行的所有任务，监控的任务必须满足其下游有纳入强保障监控基线任务的条件。关于根据基线任务确定目标任务组的方式可以参照对图2的说明，故于此不再赘述。

在示例性实施方式中，S402可以包括：

针对目标任务组中的任一个任务，在检测到该任务运行异常时，生成报警事件；

根据该报警事件，确定接收报警信息的对象、发出报警信息的时刻以及方式。

其中，报警信息可以包括以下至少之一信息：运行异常的任务、检测到该任务运行异常的时间信息、该任务运行异常的原因。

其中，在确定监控范围(即目标任务组)之后，在监控范围内的任务如果出现异常，可以生成一个报警事件，所有的报警决策都是基于对报警事件的分析得出的，也就是先有报警事件后有报警决策。

其中，在检测到目标任务组中的任务运行异常时，生成报警事件，可以包括以下至少之一：

在检测到目标任务组中的任务运行失败时，生成出错报警事件；

在检测到目标任务组中的任务的本次运行时长与平均运行时长的差值大于或等于阈值时，生成变慢报警事件。

换言之，任务的异常包括两种：出错，即任务运行失败；变慢，即任务本次运行时长和过去一段时间内的平均运行时长相比，有明显的变长。

在示例性实施方式中，当捕获到目标任务组中的一个任务运行异常并生成报警事件后，需要决策报警给谁，即确定接收报警信息的对象(以下称为报警接收人)。

在一示例中，若任务所在项目挂有项目值班表，则设置该项目值班表上的值班人员为报警接收人；若任务所在项目没有挂有项目值班表，则判断任务责任人是否挂有个人值班表，若有，则设置该个人值班表上的值班人员为报警接收人；若上述个人值班表不存在，则将任务责任人设置为报警接收人。

需要说明的是，一个项目包括多个相关的任务，每个任务都设置有对应的任务责任人。项目上挂项目值班表的效果为整个项目的报警信息由项目值班表来接收，这是由于很多项目牵涉到的任务责任人太多，通常为了避免非工作时间牵涉太多的任务责任人，因此，给项目设计了项目团队内可实行值班的机制，即一段时长由一个任务责任人接收该项目内的所有报警信息；一个任务责任人身上挂个人值班表是为了应对该任务责任人长期无法处理报警信息，继而需要由其他人员来帮忙处理的情况，例如该任务责任人处于休假状态；如果一个任务既没有项目值班表也没有个人值班表，则只有通知该任务的任务责任人进行处理。

在示例性实施方式中，根据报警事件，确定发出报警信息的时刻以及方式，可以包括：

根据报警事件的类型、报警事件的生成时刻以及运行异常的任务能够被允许拖延开始的最大时长，确定发出报警信息的时刻；

根据报警事件的类型、发出报警信息的时刻以及运行异常的任务能够被允许拖延开始的最大时长，确定发出报警信息的方式。

在示例性实施方式中，根据报警事件的类型、报警事件的生成时刻以及运行异常的任务能够被允许拖延开始的最大时长，确定发出报警信息的时刻，可以包括：

在报警事件为出错报警事件时，若该报警事件的生成时刻不满足第一时间范围(比如，报警事件在非工作时间范围内生成)，则判断运行异常的任务能够被允许拖延开始的最大时长是否满足第一条件(比如，该任务是否可以拖延到预设时刻之后执行)；若该最大时长满足第一条件(比如，该任务可以拖延到预设时刻之后执行)，则确定在设定时刻发出报警信息；若该最大时长不满足第一条件(比如，该任务不可以拖延到预设时刻之后执行)，则确定在该报警事件的生成时刻发出报警信息；若该报警事件的生成时刻满足第一时间范围(比如，报警事件在工作时间范围内生成)，则确定在该报警事件的生成时刻发出报警信息；

在报警事件为变慢报警事件时，若该报警事件的生成时刻不满足第一时间范围，或者，运行异常的任务能够被允许拖延开始的最大时长满足第二条件(比如，该任务能够被允许拖延开始的最大时长小于或等于第一阈值)，则确定在该报警事件的生成时刻发出报警信息；若该报警事件的生成时刻满足第一时间范围，则根据该任务的期望完成时刻确定发出报警信息的时刻，比如，确定发出报警信息的时刻＝该任务的期望完成时刻-N小时，其中，N为正数。

需要说明的是，一个任务能够被允许拖延开始的最大时长(以下称为任务余量)可以根据该任务的最晚开始时刻和当前时刻的差值确定。任务的最晚开始时刻可以根据该任务关联的基线任务的承诺完成时刻、该任务及其下游任务的平均运行时长确定。

比如，在一任务出错时，若当前时刻属于非工作时间范围内(比如，21:00至9:00)，判断该任务的余量是否可以容忍到上午11点以后，如果可以，则会将报警时刻设置为上午9:00，如果不可以，则会立即报警。若当前时刻属于工作时间范围内(比如，9:00至21:00)，则会立即报警。

比如，在一任务的运行时长变慢时，若当前时刻属于工作时间范围内或者该任务的任务余量少于两个小时，则会立即报警，否则会设置报警时刻＝该任务的期望完成时刻-2小时。

图5所示为本实施例中任务余量的计算示意图。如图5所示，以目标任务组中包括任务A至任务F为例，其中，基线任务组a中包括任务C和任务D，基线任务组b中包括任务E和任务F；基线任务组a的承诺完成时刻为下午6点；基线任务组b的承诺完成时刻为下午5点。其中，任务A的平均运行时长为10分钟；任务B的平均运行时长为2小时；任务C的平均运行时长为1.5小时；任务D的平均运行时长为2小时；任务E的平均运行时长为0.5小时；任务F的平均运行时长为20分钟。

参照图5可知，任务E的最晚开始时刻根据基线任务组b的承诺完成时刻、任务E的平均运行时长以及任务F的平均运行时长确定，即任务E的最晚开始时刻＝5:00-20分钟-0.5小时＝4:10；任务D的最晚开始时刻根据基线任务组a的承诺完成时刻和任务D的平均运行时长确定，即任务D的最晚开始时刻＝6:00-2小时＝4:00；任务C的最晚开始时刻根据基线任务组a的承诺完成时刻和任务C的平均运行时长确定，即任务C的最晚开始时刻＝6:00-1.5小时＝4:30；由于任务B为任务C、D及E的上游任务，可见，任务B的最晚完成时刻不能晚于下午4点，取决于任务D最晚下午4点要开始。根据任务B的平均运行时长为2小时可知，任务B的最晚开始时刻为下午2点。

由于任务A为任务B的上游任务，则任务A的最晚完成时刻不能晚于下午2点，取决于任务B最晚下午2点要开始。根据任务A的平均运行时长为10分钟可知，任务A的最晚开始时刻为下午1:50。如果任务A无法在下午1:50开始运行，则基线任务组a无法在承诺完成时刻完成，存在破线风险。破线表示基线任务组的最终完成时刻超出了基线任务组的承诺完成时刻。

如图5所示，若任务A在当前时刻下午1点出错，则任务A的余量＝1:50-1:00＝50分钟，用于体现任务异常的警戒程度，即还有50分钟解决任务A的出错问题，在50分钟之内解决问题，可以确保基线任务组a能够在承诺完成时刻完成。

在示例性实施方式中，根据报警事件的类型、发出报警信息的时刻以及运行异常的任务能够被允许拖延开始的最大时长，确定发出报警信息的方式，，可以包括：

在报警事件为出错报警事件时，若发出报警信息的时刻不满足第一时间范围(比如，发出警报信息的时刻为非工作时间范围内)，或者，若发出报警信息的时刻满足第一时间范围且运行异常的任务能够被允许拖延开始的最大时长满足第三条件(比如，该任务能够被允许拖延开始的最大时长小于或等于第二阈值)，则确定采用第一方式发出报警信息(比如，通过电话进行报警)；若发出报警信息的时刻满足第一时间范围且运行异常的目标任务能够被允许拖延开始的最大时长不满足第三条件(比如，该任务能够被允许拖延开始的最大时长大于第二阈值)，则确定采用第二方式发出报警信息(比如，通过短消息进行报警)；

在报警事件为变慢报警事件时，若发出报警信息的时刻不满足第一时间范围，或者，若发出报警信息的时刻满足第一时间范围且运行异常的任务能够被允许拖延开始的最大时长满足第四条件(比如，目标任务能够被允许拖延开始的最大时长小于或等于第三阈值)，则确定采用第二方式发出报警信息；若发出报警信息的时刻满足第一时间范围且运行异常的任务能够被允许拖延开始的最大时长不满足第四条件(比如，目标任务能够被允许拖延开始的最大时长大于第三阈值)，则确定采用第三方式发出报警信息(比如，通过邮件进行报警)。

比如，在目标任务组中的一个任务出错时，若上述确定的报警时刻属于非工作时间范围内，则会直接拨打电话给报警接收人；若报警时刻属于工作时间范围内且该任务的余量小于2小时，则会拨打电话给报警接收人；若报警时刻属于工作时间范围内且该任务的余量大于或等于2小时，则发送短消息给报警接收人。

比如，在目标任务组中的一个任务的运行时长变慢时，若上述确定的报警时刻属于非工作时间范围内，则直接发送短消息给报警接收人；若报警时刻属于工作时间范围内且该任务的余量小于1小时，则会发送短消息给报警接收人；若报警时刻属于工作时间范围内且该任务的余量大于或等于1小时，则发送邮件给报警接收人。

在示例性实施方式中，S402还可以包括：

若检测到在发出报警信息之后的设定时长内未关闭报警事件，则更新接收该报警信息的对象，向更新后的对象发出该报警信息。

比如，若报警接收人在报警信息发出后的40分钟之内没有关闭报警事件，则可以更新报警接收人，将该报警信息发送给新的报警接收人。例如，报警会升级给其他的责任人。

其中，可以通过以下方式更新报警接收人：先查看异常任务所在的项目上是否挂有项目升级值班表；若有，则从该项目升级值班表中选择新的报警接收人；若没有，则查看异常任务的任务责任人身上是否挂有个人升级值班表；若有，则从该个人升级值班表中选择新的报警接收人，若没有，则确定该任务的任务责任人的主管为新的报警接收人。

其中，关闭报警事件的方式可以包括以下至少之一：通过电话关闭；通过web页面关闭；通过移动APP(Application，应用程序)关闭。

在示例性实施方式中，S402还可以包括：

预测基线任务的最晚完成时刻；

比较该基线任务的最晚完成时刻和该基线任务的预警时刻，若最晚完成时刻晚于预警时刻，则进行预警操作。

其中，基线预警是一个针对已经纳入强保障监控的基线任务的一个附加功能。每个纳入强保障监控的基线任务都必须提供预警时刻。当某个时刻，预测到基线任务的最晚完成时刻超过预警时刻，则会直接打电话给设置的报警接收对象(比如，任务责任人)。

在示例性实施方式中，S402还可以包括：

针对目标任务组中的任一个任务，确定该任务的关键路径；其中，关键路径是指使得该任务在预期完成时刻完成的上游链路，比如，上游最慢链路；

根据目标任务组中多个任务的关键路径，识别风险任务。

其中，依据业务相关的目标任务组上的任务的关键路径，识别出业务产出的风险路径之后，可以实现对业务产出路径的优化，通过制定优化方案以保证业务的正常运行。

本实施例通过基线任务能提高对业务或产品整体运行情况的认知，并前瞻性地予以优化以保障其稳定，从而实现对目标任务组的有效监控。

图6为本申请实施例提供的一种监控装置的示意图。如图6所示，本实施例提供的监控装置，包括：

目标任务组确定模块601，适于根据在待监控的业务中定义的一个或多个基线任务，确定该业务运行中待监控的目标任务组，其中，目标任务组包括全部基线任务以及任一基线任务的上游任务；

监控模块602，适于监控目标任务组。

其中，目标任务组确定模块601可以适于通过以下方式根据在待监控的业务中定义的一个或多个基线任务组，确定该业务运行中待监控的目标任务组：

针对任一基线任务，通过遍历该基线任务所在的DAG，确定该基线任务的上游任务；

其中，监控模块602可以适于通过以下方式监控目标任务组：

针对目标任务组中的任一任务，在检测到该任务运行异常时，生成报警事件；

根据报警事件，确定接收报警信息的对象、发出报警信息的时刻以及方式。

关于本实施例提供的监控装置的相关说明可以参照图4所示的监控方法的描述，故于此不再赘述。

此外，本申请实施例还提供一种监控装置，包括：存储器、处理器以及存储在存储器上并在处理器上运行的监控程序，该监控程序被处理器执行时实现上述图3或图4所示实施例的监控方法的步骤。

图7所示为本申请实施例提供的另一种监控方法的流程图。如图7所示，本实施例提供的监控方法，包括：

S701、根据业务的产出路径，确定待监控的目标任务组；

S702、监控出现异常的任务时，确定该任务的关键路径，关键路径是指使得该任务在预期完成时刻完成的上游链路，比如，上游最慢链路；

S703、将得到的出现异常的任务的关键路径发送给用户，以便业务的产出路径进行优化。

本实施例提供的监控方法可以由图1所示的监控系统执行。然而，本申请对此并不限定。

示例性地，S701可以包括：

在业务的产出路径中，定义一个或多个基线任务；

其中，基线任务可以包括业务的产出路径中产出设定信息的任务。比如，业务中产出最重要信息的任务。示例性地，基线任务可以由用户定义或者由监控系统自动定义。然而，本申请对此并不限定。

示例性地，在S701之后，本实施例的方法还可以包括：监控出现异常的任务时，确定该任务对应的报警事件，根据该报警事件，将得到的出现异常的任务的报警信息发送给用户，以便维持业务的正常运行。

其中，出现异常的任务的监控过程以及报警的处理过程可以参照上述系统和方法实施例的描述，故于此不再赘述。

在本实施例中，在确定任务的关键路径之后，综合一个业务相关的多个任务的关键路径，可以识别出该业务产出的风险任务，进而优化该业务的产出路径，以保证该业务的正常运行；比如，根据从该业务的产出路径识别出的风险任务，检查该业务涉及的任务的依赖关系是否合理，若不合理，则对该业务涉及的任务运行代码进行优化，或者对该业务所在的数据平台进行优化。

图8为本申请实施例提供的一种监控装置的示意图。如图8所示，本实施例提供一种监控装置，包括：

第一确定模块801，适于根据业务的产出路径，确定待监控的目标任务组；

第二确定模块802，适于监控出现异常的任务时，确定该任务的关键路径，其中，关键路径是指使得该任务在预期完成时刻完成的上游链路；

传输模块803，适于将得到的出现异常的任务的关键路径发送给用户，以便业务的产出路径进行优化。

示例性地，第二确定模块802还适于监控出现异常的任务时，确定该任务对应的报警事件；传输模块803还适于根据报警事件，将得到的出现异常的任务的报警信息发送给用户，以便维持业务的正常运行。

关于本实施例提供的监控装置的相关说明可以参照图7所示的监控方法的描述，故于此不再赘述。

此外，本申请实施例还提供一种监控装置，包括：存储器、处理器以及存储在存储器上并在处理器上运行的监控程序，该监控程序被处理器执行时实现上述图7所示实施例的监控方法的步骤。

此外，本申请实施例还提供一种计算机可读介质，存储有监控程序，该监控程序被处理器执行时实现上述图3或图4或图7所示实施例提供的监控方法的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块或单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块或单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上显示和描述了本申请的基本原理和主要特征和本申请的优点。本申请不受上述实施例的限制，上述实施例和说明书中描述的只是说明本申请的原理，在不脱离本申请精神和范围的前提下，本申请还会有各种变化和改进，这些变化和改进都落入要求保护的本申请范围内。

Claims

1.一种监控方法，其特征在于，包括：

根据业务的产出路径，确定待监控的目标任务组；

2.根据权利要求1所述的方法，其特征在于，所述确定待监控的目标任务组之后，所述方法还包括：监控出现异常的任务时，确定该任务对应的报警事件，根据所述报警事件，将得到的出现异常的任务的报警信息发送给用户，以便维持业务的正常运行。

3.一种监控装置，其特征在于，包括：存储器、处理器以及存储在所述存储器上并在所述处理器上运行的监控程序，所述监控程序被所述处理器执行时实现以下操作：

4.一种监控方法，其特征在于，包括：

监控所述目标任务组。

5.根据权利要求4所述的方法，其特征在于，所述基线任务包括所述待监控的业务中产出设定信息的任务。

6.根据权利要求4所述的方法，其特征在于，所述根据在待监控的业务中定义的一个或多个基线任务，确定所述业务运行中待监控的目标任务组，包括：

针对任一基线任务，通过遍历所述基线任务所在的有向无环图DAG，确定所述基线任务的上游任务；

7.根据权利要求4所述的方法，其特征在于，所述监控所述目标任务组，包括：

8.根据权利要求7所述的方法，其特征在于，所述在检测到所述任务运行异常时，生成报警事件，包括以下至少之一：

在检测到所述任务运行失败时，生成出错报警事件；

9.根据权利要求7所述的方法，其特征在于，所述根据所述报警事件，确定发出报警信息的时刻以及方式，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述报警事件的类型、所述报警事件的生成时刻以及所述运行异常的任务能够被允许拖延开始的最大时长，确定发出报警信息的时刻，包括：

11.根据权利要求9或10所述的方法，其特征在于，所述根据所述报警事件的类型、所述发出报警信息的时刻以及所述运行异常的任务能够被允许拖延开始的最大时长，确定发出报警信息的方式，包括：

12.根据权利要求7所述的方法，其特征在于，所述监控所述目标任务组，还包括：若检测到在发出报警信息之后的设定时长内未关闭所述报警事件，则更新接收所述报警信息的对象，向更新后的对象发出所述报警信息。

13.根据权利要求4所述的方法，其特征在于，所述监控所述目标任务组，包括：

预测所述基线任务的最晚完成时刻；

比较所述基线任务的最晚完成时刻和所述基线任务的预警时刻，若所述最晚完成时刻晚于所述预警时刻，则进行预警操作。

14.根据权利要求4所述的方法，其特征在于，所述监控所述目标任务组，包括：

15.一种监控装置，其特征在于，包括：

监控模块，适于监控所述目标任务组。

16.根据权利要求15所述的装置，其特征在于，所述监控模块适于通过以下方式监控所述目标任务组：

17.一种监控方法，其特征在于，包括：

构建一个或多个有向无环图DAG；

确定所述DAG中任一任务的基础数据；

18.根据权利要求17所述的方法，其特征在于，所述任务的基础数据包括以下信息：所述任务的预期完成时刻、使得所述任务在预期完成时刻完成的上游链路、所述任务所属的业务要求的完成时刻、所述任务是否处于暂停任务的下游。

19.一种监控系统，其特征在于，包括：

有向无环图DAG计算模块，适于构建一个或多个DAG，并确定所述DAG中任一任务的基础数据；

20.根据权利要求19所述的系统，其特征在于，所述系统还包括：数据库，适于存储所述任务的基础数据以及对所述目标任务组的监控结果。

21.一种监控装置，其特征在于，包括：存储器、处理器以及存储在所述存储器上并在所述处理器上运行的监控程序，所述监控程序被所述处理器执行时实现以下操作：

监控所述目标任务组。

22.一种计算机可读介质，其特征在于，存储有监控程序，所述监控程序被处理器执行时实现以下操作：