CN116302774A

CN116302774A - 调度任务监控方法、装置、电子设备及可读存储介质

Info

Publication number: CN116302774A
Application number: CN202111506501.3A
Authority: CN
Inventors: 陈枫; 钱勇喜; 骆雨璇; 郭小静; 张倩; 黄育梅; 董康; 戴家辉
Original assignee: Shenzhen SF Taisen Holding Group Co Ltd
Current assignee: Shenzhen SF Taisen Holding Group Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2023-06-23

Abstract

本发明实施例公开了一种调度任务监控方法、装置、电子设备及可读存储介质，涉及数据监控处理技术领域。本发明实施例在获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时之后，根据所述预设时间段内的历史实例的耗时，得到耗时阈值，将所述当前实例的耗时与所述耗时阈值进行对比，根据对比结果，对所述目标调度任务进行监控。如此，根据目标调度任务的历史实例的耗时，计算出耗时阈值，实现对目标调度任务的监控，可自动发现待监控的调度任务出现异常，提升异常情况处理的及时率。

Description

调度任务监控方法、装置、电子设备及可读存储介质

技术领域

本发明涉及数据监控处理领域，具体而言，涉及一种调度任务监控方法、装置、电子设备及可读存储介质。

背景技术

随着国际物流业务的快速发展，每日数据量在快速递增，客户要求也在提高，而现有大数据平台(BDP数据平台)，还不能够实现对调度任务的自动监控，当调度任务出现异常时，管理人员往往不能及时获知，异常数据的发现经常需要业务方反馈，造成异常情况处理不及时，业务方的投诉增多。

发明内容

基于上述研究，本发明实施例提供一种调度任务监控方法、装置、电子设备及可读存储介质，以改善上述问题。

第一方面，本发明实施例提供一种调度任务监控方法，所述方法包括：

获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时。

根据所述预设时间段内的历史实例的耗时，得到耗时阈值。

将所述当前实例的耗时与所述耗时阈值进行对比，根据对比结果，对所述目标调度任务进行监控。

在一种可选的实施方式中，所述根据所述预设时间段内的历史实例的耗时，得到耗时阈值的步骤包括：

获取所述目标调度任务在所述预设时间段内的历史实例的执行节点信息。

根据所述执行节点信息，对所述历史实例进行分类，得到完成实例。

根据所述完成实例的耗时，得到耗时阈值。

在一种可选的实施方式中，所述根据完成实例的耗时，得到耗时阈值的步骤包括：

根据所述完成实例的耗时，计算所述完成实例的耗时指标，将所述耗时指标设置为耗时阈值。

或者，根据所述耗时指标，对所述完成实例进行筛选，得到目标实例，将所述目标实例的耗时输入至预设的耗时预测模型中，得到耗时阈值。

在一种可选的实施方式中，所述将所述目标实例的耗时输入至预设的耗时预测模型中，得到耗时阈值之前，所述方法还包括：

获取调度任务的样本耗时数据，对所述样本耗时数据进行预处理。

将预处理后的所述样本耗时数据输入到至少一个初始耗时预测模型中，得到各所述初始耗时预测模型对应的预测值。其中，每个所述初始耗时预测模型对应一个参数组合。

根据各所述初始耗时预测模型对应的预测值，计算各所述初始耗时预测模型的评价指标。

根据各所述初始耗时预测模型的评价指标，得到耗时预测模型。

在一种可选的实施方式中，所述根据所述执行节点信息，对所述历史实例进行分类的步骤包括：

检测所述历史实例的执行节点信息中是否包括开始节点信息以及结束节点信息。

若包括开始节点信息以及结束节点信息，则将所述历史实例设置为完成实例。

若包括开始节点信息，且未包括结束节点信息，则将所述历史实例设置为进行实例。

若未包括开始节点信息，则将所述历史实例设置为未执行实例。

在一种可选的实施方式中，所述根据所述预设时间段内的历史实例的耗时，得到耗时阈值之后，所述方法还包括：

将所述历史实例的耗时与所述耗时阈值进行对比，根据对比结果，对所述目标调度任务进行监控。

在一种可选的实施方式中，所述根据对比结果，对所述目标调度任务进行监控之后，所述方法还包括：

响应于数据质量监控配置界面的条件选择操作，确定得到至少一个预设条件。

根据各所述预设条件，生成用于检测数据质量异常的脚本代码。

运行所述脚本代码，对所述目标调度任务产生的数据进行质量监控。

在一种可选的实施方式中，所述对所述目标调度任务产生的数据进行质量监控的步骤包括：

检测所述目标调度任务产生的数据是否满足预设条件。

若满足所述预设条件，将检测结果数据汇总到正常表

若未满足所述预设条件，将检测结果数据汇总到告警表。

第二方面，本发明实施例提供一种调度任务监控装置，包括：

数据获取模块，所述数据获取模块用于获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时。

阈值获取模块，所述阈值获取模块用于根据所述预设时间段内的历史实例的耗时，得到耗时阈值。

监控处理模块，所述监控处理模块用于将所述当前实例的耗时与所述耗时阈值进行对比，根据对比结果，对所述目标调度任务进行监控。

第三方面，本发明实施例还提供一种电子设备，所述电子设备包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任一实施方式所述的调度任务监控方法。

第四方面，本发明实施例提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述任一实施方式所述的调度任务监控方法。

本发明实施例所提供的一种调度任务监控方法、装置、电子设备及可读存储介质，在获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时之后，根据所述预设时间段内的历史实例的耗时，得到耗时阈值，将所述当前实例的耗时与所述耗时阈值进行对比，根据对比结果，对所述目标调度任务进行监控，如此，根据目标调度任务的历史实例的耗时，计算出耗时阈值，实现对目标调度任务的监控，可自动发现待监控的调度任务出现异常，提升异常情况处理的及时率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的电子设备的一种结构示意图。

图2为本发明实施例所提供的目标调度任务的数据传输的示意图。

图3为本发明实施例所提供的调度任务监控方法的一种流程示意图。

图4为本发明实施例所提供的调度任务监控方法的另一种流程示意图。

图5为本发明实施例所提供的历史实例分类的流程示意图。

图6为本发明实施例所提供的获取耗时预测模型的流程示意图。

图7为本发明实施例所提供的数据质量监控配置界面的示意图。

图8为本发明实施例所提供的调度任务监控装置的一种方框示意图。

图标：100-电子设备；10-调度任务监控装置；11-数据获取模块；12-阈值获取模块；13-监控处理模块；20-存储器；30-处理器；40-通信单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

随着物流业务的快速发展，每日数据量在快速递增，这对与之配套的管理平台提出了不小的挑战，而现有BDP大数据平台，还不能够实现对调度任务的自动监控。一些实例出现异常时，例如，实例耗时过长，其耗时远远大于大部分历史实例的耗时；或者出现实例中只包括开始节点信息，却没有结束节点信息，但实例的耗时又比较长的非正常情况。而当这些调度任务出现异常时，管理人员往往不能及时获知，常常等到业务方反馈之后，才发现异常实例，从而造成异常情况处理不及时，业务方的投诉增多。因此，当前数据平台对调度任务的监控管理有待提高。

基于上述研究内容，本实施例提供一种调度任务监控方法、装置、电子设备及可读存储介质，在获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时，根据预设时间段内的历史实例的耗时，得到耗时阈值，将当前实例的耗时与耗时阈值进行对比，根据对比结果，对目标调度任务进行监控，从而可以自动发现待监控的调度任务是否出现异常，提升异常情况处理的及时率。

请参阅图1，图1为本实施例提供的一种电子设备100的结构框图。如图1所示，电子设备可以包括调度任务监控装置10、存储器20、处理器30及通信单元40，存储器20存储有处理器30可执行的机器可读指令，当电子设备100运行时，处理器30及存储器20之间通过总线通信，处理器30执行机器可读指令，并执行调度任务监控方法。

存储器20、处理器30以及通信单元40各元件相互之间直接或间接地电性连接，以实现信号的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。调度任务监控装置10包括至少一个可以软件或固件(firmware)的形式存储于存储器20中的软件功能模块。处理器30用于执行存储器20中存储的可执行模块(例如调度任务监控装置10所包括的软件功能模块或计算机程序)。

其中，存储器20可以是，但不限于，随机读取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

在一些实施例中，处理器30用以执行本实施例中描述的一个或多个功能。在一些实施例中，处理器30可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器30可以包括中央处理单元(Central Processing Unit，CPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用指令集处理器(Application Specific Instruction-setProcessor，ASIP)、图形处理单元(GraphicsProcessing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field Programmable GateArray，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing，RISC)或微处理器等，或其任意组合。

为了便于说明，在电子设备100中仅描述了一个处理器。然而，应当注意，本实施例中的电子设备100还可以包括多个处理器，因此本实施例中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若服务器的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，处理器执行步骤A，第二处理器执行步骤B，或者处理器和第二处理器共同执行步骤A和B。

本实施例中，存储器20用于存储程序，处理器30用于在接收到执行指令后，执行程序。本实施例任一实施方式所揭示的流程定义的方法可以应用于处理器30中，或者由处理器30实现。

通信单元40用于通过网络建立电子设备100与其他设备之间的通信连接，并用于通过网络收发数据。

在一些实施方式中，网络可以是任何类型的有线或者无线网络，或者是他们的结合。仅作为示例，网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless Local Area Networks，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、公共电话交换网(Public Switched Telephone Network，PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication，NFC)网络等，或其任意组合。

在本实施例中，电子设备100可以是但不限于笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(Personal DigitalAssistant，PDA)等电子设备上，本实施例对电子设备的具体类型不作任何限制。

可以理解地，图1所示的结构仅为示意。电子设备100还可以具有比图1所示更多或者更少的组件，或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或其组合实现。

还需要说明的是，参阅图2所示，图2为本实施例提供的调度任务的数据传输的示意图。示意图中从左到右依次是获取调度任务的调度数据，然后将获取的调度数据存放到数据库中，调度数据通过数据库加载到BDP大数据平台。上述提到的调度数据包括日志信息、执行节点信息以及执行所产生的数据等。

在一种可选的实施方式中，可在脚本中编写自定义的UDF函数，将脚本注入至HIVE(执行调度任务的库)里，通过脚本中自定义的UDF函数抓取调度任务的调度数据，其中，在离线场景下可通过Hive脚本来实现数据的计算。获取的调度数据会存放至数据库，例如，MySQL数据库。数据库中的调度数据经过抽取、转换(Extract-Transform-Load，为ETL)后加载至BDP大数据平台进行处理。需要说明的是，在HIVE中每一段SQL(结构化查询语言)语句都是需要执行一次或者是多次MapReduces(一种适用于大数据下分布式并行计算的编程模型)任务。

在本实施例中，图1所示的电子设备100可以部署于BDP大数据平台，也可以与BDP大数据平台通信连接，以获取BDP大数据平台发送的信息，实现对目标调度任务的监控以及数据处理等。

基于图1、图2的实现架构，本实施例提供一种调度任务监控方法，由图1所示的电子设备执行，下面基于图1示出的电子设备100的结构图对本实施例提供的调度任务监控方法的步骤进行详细阐述。请结合参阅图3，本实施例所提供的调度任务监控方法包括步骤S101至步骤S103。

步骤S101：获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时。

其中，目标调度任务为待监控的调度任务，待监控的调度任务可以根据实际情况进行确定，待监控的调度任务可以选择一个或多个，当确定好待监控的调度任务后，将待监控的调度任务作为目标调度任务，并收集目标调度任务，之后将收集的目标调度任务汇总到BDP大数据平台。然后获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时。

需要说明的是，调度任务在设定了运行时间后，每次运行都会产生实例，而在本实施例中，实例包括当前实例和历史实例。上述提到的预设时间段一般是以现在或过去的某一时间为节点，在此节点前的一段时间作为预设时间段。

在本实施例中，以当前实例为节点，将当前实例之前的一段时间作为预设时间段，例如，当前实例之前的一周，或者当前实例之前的一个月，或者当前实例之前的一年作为预设时间段。作为优选的，本实施例以当前实例一个月作为预设时间段，而在预设时间段内的实例即为预设时间段内的历史实例。

步骤S102：根据预设时间段内的历史实例的耗时，得到耗时阈值。

其中，在获取到预设时间段内的历史实例的耗时之后，可以根据预设时间段内的历史实例的耗时，得到耗时阈值。

在一种可选的实施方式中，可以将预设时间段设置为当前实例之前的一个月，获取在这一个月时间内的历史实例的耗时，根据设定的计算方法或处理方法，对历史实例的耗时进行计算或处理。

一种实施方式中，假设计算方法是获取预设时间段内的历史实例的耗时的均值，获取当前实例之前的一个月内的历史实例的耗时a，b，c，d……n，将历史实例的耗时a，b，c，d……n进行数学运算，通过数学运算，得到数值m，数值m可以是a，b，c，d……n的均值，可以是a，b，c，d……n的中位数，然后将求得数值m作为耗时阈值。

在另一种实施方式中，假设处理方法是对预设时间段内的历史实例的耗时进行分类，获取当前实例之前的一个月内的历史实例，并从中选取部分历史实例的耗时作为样本数据，输入到机器学习模型中，利用样本数据训练机器学习模型，从而得到耗时阈值。

步骤S103：将当前实例的耗时与耗时阈值进行对比，根据对比结果，对目标调度任务进行监控。

其中，在得到耗时阈值后，将当前实例的耗时与耗时阈值进行对比，根据对比的结果，即可对目标调度任务进行监控。

在本实施例中，耗时阈值可以是一种衡量标准，将当前实例的耗时与耗时阈值进行比较，根据比较的结果即可对目标调度任务进行监控，判断当前实例是否异常。当前实例的耗时与耗时阈值进行对比时，当前实例的耗时可能大于耗时阈值，也可能是当前实例的耗时小于等于耗时阈值。如果当前实例的耗时大于耗时阈值，则说明，大数据平台监控到当前实例异常，大数据平台发出告警；如果当前实例的耗时小于等于耗时阈值，则说明，当前实例正常。

本实施例所提供的一种调度任务监控方法，在获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时之后，根据所述预设时间段内的历史实例的耗时，得到耗时阈值，将所述当前实例的耗时与所述耗时阈值进行对比，根据对比结果，对所述目标调度任务进行监控，如此，根据目标调度任务的历史实例的耗时，计算出耗时阈值，实现对目标调度任务的监控，可自动发现待监控的调度任务出现异常，提升异常情况处理的及时率。

为了实现对调度任务的监控，提高报警的准确性，本实施例通过对历史实例进行分类，得到完成实例，根据完成实例的耗时，计算耗时标准，从而得到耗时阈值，基于此，在本实施例中，结合图4所示，根据预设时间段内的历史实例的耗时，得到耗时阈值包括步骤S201至步骤S203：

步骤S201：获取目标调度任务在预设时间段内的历史实例的执行节点信息；

步骤S202：根据执行节点信息，对历史实例进行分类，得到完成实例。

步骤S203：根据完成实例的耗时，得到耗时阈值。

其中，调度数据包括执行节点信息、任务ID、责任人等，因此，获取执行节点信息可以通过脚本中自定义的UDF函数进行抓取，并将获取的执行节点信息存放至数据库。然后对数据库的执行节点信息进行数据抽取、转换并加载至BDP大数据平台。需要注意的是，存放执行节点信息的数据库，每间隔固定时间，例如间隔一个小时，或者间隔3个小时，就会对采集的执行节点信息进行筛选并加载到BDP大数据平台。

在本实施例中，上述提到的执行节点信息一般是指存放在日志信息中的关于该历史实例执行的时间节点，常见的执行节点信息包括开始节点信息、结束节点信息等。例如，某个历史实例A，于2020年2月1日上午8时开始执行，在2020年2月3日上午8时结束执行。那么历史实例A的执行节点信息包括开始节点信息和结束节点信息，开始节点信息为2020年2月1日上午8时，结束节点信息为2020年2月3日上午8时。如果某个历史实例B的日志信息中只显示于2020年3月1日上午8时开始执行。那么历史实例B的执行节点信息只包括开始节点信息而不包括结束节点信息，该历史实例B的开始节点信息为2020年3月1日上午8时。

可选的，在本实施例中，在获取相应的执行节点信息之后，根据获取的执行节点信息即可对历史实例进行分类，而依据执行节点信息对历史实例分类的方法有多种，概括的说，例如，第一种分类方式：将执行节点信息中同时包括开始节点信息和结束节点信息的历史实例分为第一类，将执行节点信息中只包括开始节点信息的历史实例分为第二类。第二种分类方式：将执行节点信息中结束节点信息与开始节点信息之间的时间大于设定值的历史实例分为第一类；将执行节点信息中结束节点信息与开始节点信息之间的时间小于设定值的历史实例分为第二类；剩余的分为第三类。

上述均是依据执行节点信息的特点对历史实例进行分类的方式，本实施例中，为了便于本领域技术人员理解与实施，结合图5所示，本实施例给出了第一种分类方式的具体步骤：

步骤S301：检测历史实例的执行节点信息中是否包括开始节点信息以及结束节点信息。

步骤S302：若包括开始节点信息以及结束节点信息，则将历史实例设置为完成实例。

步骤S303：若包括开始节点信息，且未包括结束节点信息，则将历史实例设置为进行实例。

步骤S304：若未包括开始节点信息，则将历史实例设置为未执行实例。

其中，上述提到的执行节点信息是用于存储历史实例在执行过程中各节点的时间。可以理解的是，执行节点信息包括开始节点信息、暂停节点信息、恢复节点信息、阶段节点信息、结束节点信息等。容易想到的是，部分历史实例既包括开始节点信息又包括结束节点信息，而部分历史实例只包括开始节点信息，还有部分历史实例既没有开始节点信息也没有结束节点信息。

例如，历史实例A于2020年7余1日上午8时开始执行，在2020年7月1日上午9时，完成第一阶段，然后在2020年下午14时暂停执行，又在2020年下午15时恢复执行，并于2020年下午16时结束执行。则历史实例A的执行节点信息包括2020年7余1日上午8时、2020年7余1日上午9时、2020年7余1日下午14时、2020年7余1日下午15时、2020年7余1日下午16时。历史实例B于2020年8月1日上午8时开始执行，在2020年8月1日上午9时结束执行，则历史实例B的执行节点信息包括2020年8月1日上午8时、2020年8月1日上午9时；历史实例C于2020年9余1日上午8时开始执行，则历史实例C的执行节点信息包括2020年9余1日上午8时。上述列出的实例中，历史实例A、历史实例B既包括开始节点信息又包括结束节点信息，而历史实例C只包括开始节点信息。

在本实施例中，基于执行节点信息的特点，可以方便对历史实例进行分类。具体为，将既包括开始节点信息又包括结束节点信息的历史实例设置为完成实例，容易理解的是，完成实例是指历史实例在执行时，其执行过程是完整的，即使执行过程出现特殊情况，例如暂停执行、恢复执行等，只要该历史实例最终完成执行，具有结束节点信息，那么该历史实例即可设置为完成实例。

对于只包括开始节点信息而不包括结束节点信息的历史实例，则设置为进行实例，可以理解的是，有些历史实例虽然是过去就开始执行，但是执行时间以及执行情况可能至今还在继续，也就是说，该历史实例现在还是继续执行的状态，因此，将只包括开始节点信息而不包括结束节点信息的历史实例设置为进行实例。

对于既没有开始节点信息也没有结束节点信息的历史实例，则设置为未执行实例。承接上述内容，容易想到的是，有些历史实例虽然计划执行，但是至今还未到其执行的开始时间，因此，这些历史实例其既没有开始节点信息也没有结束节点信息，本实施例将这种情况的历史实例设置为未执行实例。

在对历史实例进行分类后，即可从中筛选出完成实例，在得到完成实例后，即可根据完成实例的耗时，得到耗时阈值。

具体的，在本实施例中，根据完成实例的耗时，得到耗时阈值的步骤包括：

根据完成实例的耗时，计算完成实例的耗时指标，将耗时指标设置为耗时阈值。

其中，对历史实例进行分类后，即可得到完成实例，完成实例的耗时可以开始节点信息和结束节点信息计算得出。例如，某个历史实例A，于2020年2月1日上午8时开始执行，在2020年2月3日上午8时结束执行，那么历史实例A的开始节点信息为2020年2月1日上午8时，结束节点信息为2020年2月3日上午8时，通过计算得到历史实例A的耗时为48小时。

在本实施了中，通过完成实例的耗时可以计算得到耗时指标，耗时指标可以是在预设时间段内的完成实例的耗时的均值、中位数、众数中的至少一种。假设，将预设时间段内的完成实例的耗时的均值作为耗时指标，完成实例A的耗时为48小时，完成实例B的耗时为42小时，完成实例C的耗时为44小时，完成实例D的耗时为50小时，则计算完成实例A、完成实例B、完成实例C的耗时指标为46小时，然后将耗时指标作为耗时阈值。如果当前实例大于耗时阈值，则说明当前实例及时性异常，大数据平台可以发出告警。

容易想到的是，如果以过去的某一实例Q作为监控对象，获取实例Q之前的预设时间段内的完成实例的耗时，通过完成实例的耗时计算耗时指标，将耗时指标作为耗时阈值，继而将实例Q的耗时与耗时阈值比较，也可以判断出实例Q的耗时的及时性。

值得考虑的是，将耗时指标作为耗时阈值对当前实例进行监控时，虽然一些异常实例可以被监控到，但是，由于在完成实例中存在部分完成实例的耗时过长，或者部分完成实例耗时过短，导致这些完成实例的耗时不能够真实的表现出调度任务的常规耗时情况。而将这些完成实例的耗时作为耗时指标的计算依据，进而得到耗时阈值，则不可避免的使耗阈值时不够准确，因此，通过耗时指标进行当前实例监控的准确性还可以进一步提高。

基于上述内容，在本实施例中，可以对完成实例进一步筛选，利用耗时预测模型获取耗时阈值。

可选的，在本实施例中，根据完成实例的耗时，得到耗时阈值的步骤还可以是：

根据耗时指标，对完成实例进行筛选，得到目标实例，将目标实例的耗时输入至预设的耗时预测模型中，得到耗时阈值。

其中，耗时指标可以是前述内容中，在预设时间段内的历史实例的耗时的均值、中位数、众数中的至少一种，前述内容已经做出说明，此处不再赘述。区别在于，在本实施实施方式中，需要根据耗时指标对完成实例做进一步处理，即根据耗时指标对完成实例进行筛选，留取符合要求的完成实例，并作为目标实例。

具体地说，本实施例中的完成实例的执行节点信息中一般具有开始节点信息和结束节点信息。但是，考虑到在有些情况中，历史实例在执行时出现特殊或异常情况，导致历史实例虽然完整执行，但是历史实例的耗时具有特殊性，不能够代表其耗时的真实情况。因此，需要根据耗时指标，对完成实例进行筛选。

筛选的方式有多种，在一中实施方式中，将预设时间段内的完成实例的耗时的均值a作为耗时指标，判断完成实例的耗时是否小于等于均值a时，若完成实例的耗时小于等于均值a，将该完成实例作为目标实例。

在另一种实施方式中，将预设时间段内的完成实例的耗时的中位数b作为耗时指标，判断完成实例的耗时是否小于等于中位数b时，若完成实例的耗时小于等于中位数b，将该完成实例作为目标实例。

在另一种实施方式中，将预设时间段内的完成实例的耗时的均值d作为耗时指标，设定第一阈值d1和第二阈值d2，且第二阈值d2大于第一阈值d1，判断完成实例的耗时是否处于第一阈值d1和第二阈值d2之间，若完成实例的耗时处于第一阈值d1和第二阈值d2之间，将该完成实例作为目标实例。

通过以上几种实施方式，均可以对完成实例进行筛选，需要说明的是，本实施例对于具体筛选方式不做具体限定。

在获得目标实例后，将目标实例输入到耗时预测模型，即可得到耗时阈值。可选的，在本实施例中，耗时预测模型可以是时序预测模型，也可以是整合移动平均自回归模型(ARIMAM模型)。

可选的，耗时预测模型可以通过有监督的训练方式，以及无监督的训练方式训练得到。在本实施例中，耗时预测模型可以通过有监督的训练方式训练得到，即通过已知真实值的样本数据去训练得到一个最优模型，再利用这个模型将所有的输入映射为相应的输出，对输出进行判断从而实现预测的目的，而训练得到模型也就具有了对未知数据进行预测的能力。

可选的，请结合图6所示，耗时预测模型的训练过程可以包括步骤S401至步骤S404：

步骤S401：获取调度任务的样本耗时数据，对样本耗时数据进行预处理。

步骤S402：将预处理后的样本耗时数据输入到至少一个初始耗时预测模型中，得到各初始耗时预测模型对应的预测值；其中，每个初始耗时预测模型对应一个参数组合。

步骤S403：根据各初始耗时预测模型对应的预测值，计算各初始耗时预测模型的评价指标。

步骤S404：根据各初始耗时预测模型的评价指标，得到耗时预测模型。

其中，在获取样本耗时数据前，需要先获取目标调度任务预设时间段内的历史实例，从历史实例中获取完成实例，并对完成实例进行筛选，选取具有普遍代表性的完成实例，将筛选后的完成实例的耗时作为样本耗时数据。

需要说明的是，关于完成实例的获取，可以依据历史实例中的执行节点信息对历史实例进行分类。例如，获取历史实例的执行节点信息，执行节点信息一般包括开始节点信息和结束节点信息，选取执行节点信息中同时包括开始节点信息和结束节点信息的历史实例，将其作为完成实例。考虑到某些情况下，完成实例在执行时，因为特殊原因，可能导致耗时过长，或者耗时过短，使得完成实例的耗时不具有普遍代表性，因此，为了减小对初始耗时预测模型的影响，有必要对完成实例进行筛选。

在本实施例中，可以根据耗时指标，对完成实例进行筛选，具体筛选方式参照获取目标实例实施方式的内容，此处不再赘述。在获取调度任务的样本耗时数据后，将样本耗时数据进行清洗，之后对样本耗时数据进行平稳性分析和白噪声分析的预处理操作。

样本耗时数据预处理之后，将经过预处理的样本耗时数据输入到至少一个初始耗时预测模型中。需要说明的是，初始耗时预测模型一般是预先建立的，数量有多个，每个初始耗时预测模型对应一个参数组合(p，d，q)，其中，p代表阶层，q代表阶数，d代表差分次数。初始耗时预测模型的输入数据是样本耗时数据，输出数据是预测值。各初始耗时预测模型的参数组合不完全相同，同一样本耗时数据输入至参数组合不同的初始耗时预测模型中，得到的预测值不同。在建立好初始耗时预测模型之后，将经过预预处理的样本耗时数据输入至初始耗时预测模型中，得到各初始耗时预测模型对应的预测值。

在得到预测值之后，为了确定哪个初始耗时预测模型更合适，可以准确率(ACC)作为模型的评价指标。在采用准确率作为初始耗时预测模型的评价指标时，应将初始耗时预测模型的预测值与对应的真实值进行比较，这里所说的真实值包括在样本耗时数据中，如果预测值在真实值预设的容忍范围内，则判断该预测值正确，最终计算处于容忍范围内的预测值的数量占预测值总量的比例，即可得到准确率，以准确率最高的初始耗时预测模型作为本实施例的耗时预测模型。常见的，本实施例还可以采用赤池信息量(AIC)作为模型的评价指标，其公式为：AIC＝(2k-2L)/n，其中，n代表样本耗时数据量，样本耗时数据量越大该值越小，也就是说样本耗时数据量越大，对应的初始耗时预测模型越有说服力；k代表初始耗时预测模型中参数的数量，可以知道，初始耗时预测模型中的参数越少，AIC的值越小；L代表对数似然值，L越大，初始耗时预测模型则越精确。最终以AIC最小的初始耗时预测模型作为本实施例的耗时预测模型。

应当理解的是，其他能够评估初始耗时预测模型的指标也可以作为本实施例的评价指标，例如，精确率或贝叶斯信息量(BIC)。

在一种可选的实施方式中，还可以通过将样本耗时数据输入耗时预测模型，得到预测值，然后将得到的预测值与已知对应的真实值进行比较，根据预测值与已知对应的真实值的差值，调整耗时预测模型的参数，耗时预测模型经过参数调整后，迭代样本耗时数据，重复上述参数调整过程，直至得到符合要求的耗时预测模型。在本实施例中，符合要求的耗时预测模型，可以是预测值与已知对应的真实值的差值最小或达到收敛。

考虑到在实际应用中，一些调度任务的异常历史实例，有部分会被发现，但依然还有部分未被发现。为了提高业务方的使用体验，降低业务方的投诉，有必要对调度任务的历史实例也进行监控。

可选的，在本实施例中，根据预设时间段内的历史实例的耗时，得到耗时阈值之后，方法还包括：

将历史实例的耗时与耗时阈值进行对比，根据对比结果，对目标调度任务进行监控。

如前所述，可以通过历史实例的结束节点信息以及开始节点信息计算得到历史实例的耗时，在获取历史实例的耗时之后，将历史实例的耗时与耗时阈值进行对比。耗时阈值的获取在本实施例的前述内容中已做了说明，此处不再赘述。经过对比，如果历史实例的耗时大于耗时阈值，则说明该历史实例异常。如果历史实例的耗时小于等于耗时阈值，则说明该历史实例正常。

举例来说，如果以某一历史实例W作为监控对象，那么首先获取历史实例W的执行节点信息，通过执行节点信息的开始节点信息和结束节点信息计算历史实例W的耗时t。以该历史实例W之前的一个月为预设时间段，获取这一个月的历史实例的耗时，并根据这一个月的历史实例的耗时计算得到耗时阈值T，将历史实例的耗时t与耗时阈值T进行对比，如果历史实例W的耗时t大于耗时阈值T，则说明历史实例W异常。如果历史实例W的耗时t小于等于耗时阈值T，则说明历史实例W正常。

可选的，在本实施例中，根据对比结果，对目标调度任务进行监控之后，方法还包括：

根据各预设条件，生成用于检测数据质量异常的脚本代码。

运行脚本代码，对目标调度任务产生的数据进行质量监控。

其中，为了对调度任务产生的数据进行质量监控，开发数据质量监控配置工具，结合图7所示，图7为该工具的数据质量监控配置界面，在界面上会出现相应控件，界面上的控件包括规则模板控件、扫描范围控件、告警阈值控件、库名控件、表名控件、操作人控件、自定义规则控件、添加规则控件、删除规则控件、生成控件等。其中，规则模板控件是指可以选择对数据进行技术质量维度监控的控件，技术质量维度包括完整性、准确性、及时性唯一性、有效性。扫描范围控件包括分区扫描和全表扫描，需要解释的是，目标调度任务产生的数据会存放在不同的数据表中，这些数据表存放在相应的库中，选择分区扫描则代表对选定的数据表的部分进行数据质量监控，而全表扫描代表对整个数据表进行数据质量监控。告警阈值控件可以选择需要对数据进行质量监控的具体事项，例如行数、耗时等，在确定监控的事项后，可以选择阈值的具体数值。库名控件是用于选择不同的库的名称，在库名控件的下拉选项中可以显示库的名称。完成库名控件的选择操作后，在表名控件的下拉选项中可以显示相应数据表的名称。操作人控件是显示操作此次数据质量监控的操作人员信息，自定义规则控件可以自行定义质量监控的规则，添加规则控件可以额外添加需要对数据进行质量监控的规则，删除规则控件则可以删除已经添加的规则，生成控件用于在完成上述控件选择操作之后，生成一套脚本代码，该脚本代码在BDP大数据平台执行后。

具体的说，在对数据进行质量监控时，根据预设条件，在相应控件上进行选择操作，例如，在规则模板控件中，选择“一致性”，在扫描范围控件中选择“分区扫描”，在告警阈值控件中选择“行数10”，在库名控件中选择“dwd_ibu”，在表名控件选择“dwd_ibu.alarm.process.intermediate_info”。在控件上完成上述预设条件选择操作后，数据质量监控配置界面响应于预设条件的选择操作，将所需要设定的预设条件添加至规则汇总处之后，继而生成一套脚本代码，该脚本代码在BDP大数据平台执行后，即可完成对存储在库名为“dwd_ibu”数据库的目标调度任务所产生的数据进行质量监控。

可选的，在本实施例中，对目标调度任务产生的数据进行质量监控的步骤包括：

检测目标调度任务产生的数据是否满足预设条件。

若满足预设条件，将检测结果数据汇总到正常表。

若未满足预设条件，将检测结果数据汇总到告警表。

其中，预设条件可以由操作人员根据数据质量监控要求自行选择设定，当预设条件确定之后，还可以配置执行时间，例如，执行时间可以选择为每天、每周、每月；或者执行时间选择固定时间执行，固定时间可以选择为某年某月某日某时；或者执行时间选择立即执行。可以理解的是，对于执行时间的选择是多样的，本实施例对此不做限定。

在本实施例中，在对目标调度任务产生的数据进行检测后，需要将检测结果数据汇总到结果表中，结果表包括正常表和告警表，检测结果数据包括检测结果以及相关数据，例如检测的库名、表名、检测的预设条件、告警阈值等。

目标调度任务可能满足预设条件，也可能不满足预设条件，如果满足预设条件，则将检测结果数据汇总到正常结果表，如果不满足预设条件，则将检测结果数据汇总到告警表中。汇总到正常表的检测结果数据，说明待监控的调度任务满足预设条件，而汇总到告警表中的检测结果数据，则说明待监控的调度任务不满足预设条件，当待监控的调度任务不满足预设条件时，则BDP大数据平台生成告警信息，并定时调用通信接口，实时通知相应的责任人。通知责任人的方式有多种，例如，以短信的方式通知责任人，向责任人发送短信，告知责任人待监控的调度任务不满足预设条件，需要及时处理。或者通过网络社交APP的方式向责任人发送消息，常见的由微信、QQ等，通过网络社交APP告知责任人待监控的调度任务不满足预设条件，需要及时处理。当责任人收到了告警消息后，需要对告警的调度任务的数据进行处理，并分析查看告警原因，检查数据质量异常所带来的影响。当责任人处理完成之后，将已经处理后的结果插入至告警处理结果表。如果责任人第二天仍未处理，则BDP大数据平台在第二天仍会通知责任人，提示责任人及时处理。

在完成上述数据质量监控后，即可将处理好信息推送给BDP大数据平台，在数据门户对所有的结果进行汇总与可视化。

本实施例所提供的一种调度任务监控方法，在获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时之后，根据预设时间段内的历史实例的耗时，得到耗时阈值，将当前实例的耗时与耗时阈值进行对比，根据对比结果，对目标调度任务进行监控，如此，根据目标调度任务的历史实例的耗时，计算出耗时阈值，实现了对目标调度任务的监控，并能自动发现待监控的调度任务出现异常，提升异常情况处理的及时率。

基于同一发明构思，请结合参阅图8，本实施例还提供一种调度任务监控装置10，应用图1所示的电子设备，如图8所示，本实施例所提供的调度任务监控装置10包括数数据获取模块11、阈值获取模块12以及监控处理模块13。

数据获取模块11，数据获取模块11用于获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时。

阈值获取模块12，阈值获取模块12用于根据预设时间段内的历史实例的耗时，得到耗时阈值。

监控处理模块13，监控处理模块13用于将当前实例的耗时与耗时阈值进行对比，根据对比结果，对目标调度任务进行监控。

在可选的实施方式中，阈值获取模块12用于：

获取目标调度任务在预设时间段内的历史实例的执行节点信息；根据执行节点信息，对历史实例进行分类，得到完成实例。

根据完成实例的耗时，得到耗时阈值。

在可选的实施方式中，阈值获取模块12用于：

在可选的实施方式中，本实施例提供的调度任务监控装置还包括模型训练模块，模型训练模块用于：

在将目标实例的耗时输入至预设的耗时预测模型中，得到耗时阈值之前，获取调度任务的样本耗时数据，对样本耗时数据进行预处理。

将预处理后的样本耗时数据输入到至少一个初始耗时预测模型中，得到各初始耗时预测模型对应的预测值；其中，每个初始耗时预测模型对应一个参数组合。

根据各初始耗时预测模型对应的预测值，计算各初始耗时预测模型的评价指标。

根据各初始耗时预测模型的评价指标，得到耗时预测模型。

在可选的实施方式中，阈值获取模块12用于：

检测历史实例的执行节点信息中是否包括开始节点信息以及结束节点信息。

若包括开始节点信息以及结束节点信息，则将历史实例设置为完成实例。

若包括开始节点信息，且未包括结束节点信息，则将历史实例设置为进行实例。

若未包括开始节点信息，则将历史实例设置为未执行实例。

在可选的实施方式中，监控处理模块13用于：将历史实例的耗时与耗时阈值进行对比，根据对比结果，对目标调度任务进行监控。

在可选的实施方式中，本实施例提供的调度任务监控装置还包括质量检测模块，质量检测模块用于：

根据对比结果，对目标调度任务进行监控之后，响应于数据质量监控配置界面的条件选择操作，确定得到至少一个预设条件。

根据各预设条件，生成用于检测数据质量异常的脚本代码。

运行脚本代码，对目标调度任务产生的数据进行质量监控。

在可选的实施方式中，质量检测模块用于：

检测待监控的调度任务产生的数据是否满足预设条件。

若满足预设条件，将检测结果数据汇总到正常表。

若不满足预设条件，将检测结果数据汇总到告警表。

本实施例所提供的调度任务监控装置，在获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时之后，根据预设时间段内的历史实例的耗时，得到耗时阈值，将当前实例的耗时与耗时阈值进行对比，根据对比结果，对目标调度任务进行监控，如此，根据目标调度任务的历史实例的耗时，计算出耗时阈值，实现了对目标调度任务的监控，并能自动发现待监控的调度任务出现异常，提升异常情况处理的及时率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的调度任务监控装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

在上述基础上，本实施例提供一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现前述任一实施方式的调度任务监控方法。

所属领域的技术人员可以清楚地了解到，由于为描述的方便和简洁，上述描述的可读存储介质的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

综上，本发明实施例所提供的调度任务监控方法、装置、电子设备及可读存储介质，在获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时之后，根据预设时间段内的历史实例的耗时，得到耗时阈值，将当前实例的耗时与耗时阈值进行对比，根据对比结果，对目标调度任务进行监控，如此，根据目标调度任务的历史实例的耗时，计算出耗时阈值，实现了对目标调度任务的监控，并能自动发现待监控的调度任务出现异常，提升异常情况处理的及时率。

以上所述，仅为本发明的各种实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种调度任务监控方法，其特征在于，所述方法包括：

获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时；

根据所述预设时间段内的历史实例的耗时，得到耗时阈值；

2.根据权利要求1所述的调度任务监控方法，其特征在于，所述根据所述预设时间段内的历史实例的耗时，得到耗时阈值的步骤包括：

获取所述目标调度任务在所述预设时间段内的历史实例的执行节点信息；

根据所述执行节点信息，对所述历史实例进行分类，得到完成实例；

根据所述完成实例的耗时，得到耗时阈值。

3.根据权利要求2所述的调度任务监控方法，其特征在于，所述根据完成实例的耗时，得到耗时阈值的步骤包括：

根据所述完成实例的耗时，计算所述完成实例的耗时指标，将所述耗时指标设置为耗时阈值；或者，

根据所述耗时指标，对所述完成实例进行筛选，得到目标实例，将所述目标实例的耗时输入至预设的耗时预测模型中，得到耗时阈值。

4.根据权利要求3所述的调度任务监控方法，其特征在于，所述将所述目标实例的耗时输入至预设的耗时预测模型中，得到耗时阈值之前，所述方法还包括：

获取调度任务的样本耗时数据，对所述样本耗时数据进行预处理；

将预处理后的所述样本耗时数据输入到至少一个初始耗时预测模型中，得到各所述初始耗时预测模型对应的预测值；其中，每个所述初始耗时预测模型对应一个参数组合；

根据各所述初始耗时预测模型对应的预测值，计算各所述初始耗时预测模型的评价指标；

5.根据权利要求2所述的调度任务监控方法，其特征在于，所述根据所述执行节点信息，对所述历史实例进行分类的步骤包括：

检测所述历史实例的执行节点信息中是否包括开始节点信息以及结束节点信息；

若包括开始节点信息以及结束节点信息，则将所述历史实例设置为完成实例；

若包括开始节点信息，且未包括结束节点信息，则将所述历史实例设置为进行实例；

6.根据权利要求1-5任一项所述的调度任务监控方法，其特征在于，所述根据所述预设时间段内的历史实例的耗时，得到耗时阈值之后，所述方法还包括：

7.根据权利要求1-5任一项所述调度任务监控方法，其特征在于，所述根据对比结果，对所述目标调度任务进行监控之后，所述方法还包括：

响应于数据质量监控配置界面的条件选择操作，确定得到至少一个预设条件；

根据各所述预设条件，生成用于检测数据质量异常的脚本代码；

8.根据权利要求7所述调度任务监控方法，其特征在于，所述对所述目标调度任务产生的数据进行质量监控的步骤包括：

检测所述目标调度任务产生的数据是否满足预设条件；

若满足所述预设条件，将检测结果数据汇总到正常表；

若未满足所述预设条件，将检测结果数据汇总到告警表。

9.一种调度任务监控装置，其特征在于，包括：

数据获取模块，所述数据获取模块用于获取目标调度任务的当前实例的耗时以及预设时间段内的历史实例的耗时；

阈值获取模块，所述阈值获取模块用于根据所述预设时间段内的历史实例的耗时，得到耗时阈值；

10.一种电子设备，其特征在于，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-8中任意一项所述的调度任务监控方法。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8中任意一项所述的调度任务监控方法。