CN113626285A

CN113626285A - 基于模型的作业监控方法、装置、计算机设备和存储介质

Info

Publication number: CN113626285A
Application number: CN202110872228.XA
Authority: CN
Inventors: 王永森
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-11-09

Abstract

本申请涉及人工智能技术领域，提供一种基于模型的作业监控方法、装置、计算机设备和存储介质，方法包括：在作业成功启动后，为作业注册指标监控服务；在完成为作业注册指标监控服务后，获取与作业对应的URL地址；将URL地址注册至预设注册中心；调用预设监控模块对预设注册中心进行访问，获取预设注册中心存储的URL地址，并基于URL地址拉取与URL地址对应的作业的监控指标数据；基于预设的告警预测模型对监控指标数据进行预测处理，生成对应的告警预测结果；对监控指标数据与告警预测结果进行展示。本申请能提高作业的监控指标数据的采集效率。本申请还可以应用于区块链领域，上述监控指标数据等数据可以存储于区块链上。

Description

基于模型的作业监控方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种基于模型的作业监控方法、装置、计算机设备和存储介质。

背景技术

实时数据处理是大数据行业十分重要的领域，它颠覆了传统批处理的高延时，高吞吐特点，实现了数据实时获取，实时计算，实时展示的能力。构建实时数据处理平台也已成为各大互联网企业的长期规划。由于实时作业具有无界，连续计算的特点，作业一旦提交集群运行后会持续运行，开发人员很难发现其内部的实际情况，也无法实时查看所有Task日志，作业计算是快或是慢或是否异常，无从得知。因此必须构建作业监控系统来实时获取作业状态，才能保证实时数据处理平台的长期稳定运行。

目前Flink作业监控的通用方案是通过收集作业报告的Metrics数据，利用Prometheus时序数据库存储，Granfa进行展示实现。其中，能否成功收集作业的Metrics数据是Flink作业监控至关重要的一环。但是目前利用Prometheus收集Metrics数据的方式存在诸多问题，无法很好投入到实际的生产环境。现有的作业监控方案通常会使用两种方式进行Metrics数据的收集：第一种方式是，由Prometheus直接拉取Flink作业指定端口的Metrics数据。该方式缺陷是当启动新的作业时，注册的端口都要手动编辑到Prometheus配置中，重新加载后才能生效，尤其是当作业并行度高时，需要手动注册的端口的数量会很多，需要耗费较大的人力与时间，进而导致指标数据的收集效率较低。第二种方式是使用Pushgateway方式进行作业的Metrics数据收集，将Metrics数据推送到Pushgateway后由Prometheus拉取。但由于Pushgateway无法自动清理推送的Metrics数据，随着启动作业的数量增加，Pushgateway所在节点内存使用率会逐渐增加直至内存溢出，最终该进程被系统强制关闭。所以这种方式仅适合用于作业数量较少的监控场景，作业监控的智能性较低。

发明内容

本申请的主要目的为提供一种基于模型的作业监控方法、装置、计算机设备和存储介质，旨在解决现有的作业监控方案存在指标数据的收集效率较低且智能性较低的技术问题。

本申请提出一种基于模型的作业监控方法，所述方法包括步骤：

在作业成功启动后，为所述作业注册指标监控服务；其中，所述作业的数量包括多个；

在完成为所述作业注册指标监控服务后，获取与所述作业对应的URL地址；

将所述URL地址注册至预设注册中心上；

调用预设监控模块对所述预设注册中心进行访问，获取所述预设注册中心存储的所述URL地址，并基于所述URL地址拉取与所述URL地址对应的作业的监控指标数据；

基于预设的告警预测模型对所述监控指标数据进行预测处理，生成与所述监控指标数据对应的告警预测结果；

对所述监控指标数据与所述告警预测结果进行展示。

可选地，所述基于预设的告警预测模型对所述监控指标数据进行预测处理，生成与所述监控指标数据对应的告警预测结果的步骤，包括：

获取与指定作业对应的监控指标数据；其中，所述指定作业为所有所述作业中的任意一个，将所述指定作业对应的监控指标数据记为指定监控指标数据；

调用预先训练好的预设数量的告警预测模型，并获取各所述告警预测模型的测试精度值；其中，每个所述告警预测模型分别是基于各自不同的训练数据集以及各自不同的分类算法训练生成的，所述训练数据集的个数等于所述预设数量，所述分类算法的个数等于所述预设数量；

基于所有所述预测精度值对所有所述告警预测模型进行筛选处理，得到符合预设条件的目标告警预测模型；

基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，生成与所述指定监控指标数据对应的目标告警预测结果。

可选地，所述获取各所述告警预测模型的测试精度值的步骤，包括：

获取预设的测试数据集；其中，所述测试数据集包括多个测试数据，以及与各所述测试数据分别对应的类别信息；

分别将各所述测试数据输入至指定告警预测模型中，获取所述指定告警预测模型输出的与各所述测试数据分别对应的第一告警预测结果；其中，所述指定告警预测模型为所有所述告警预测模型中的任意一个模型；

基于与各所述测试数据分别对应的类别信息，获取所有所述第一告警预测结果中预测正确的指定告警预测结果；

获取所述指定告警预测结果的第一数量，以及获取所述第一告警预测结果的第二数量；

计算所述第一数量与所述第二数量的比值；

将所述比值作为所述指定告警预测模型的测试精度值。

可选地，所述基于所有所述预测精度值对所有所述告警预测模型进行筛选处理，得到符合预设条件的目标告警预测模型的步骤，包括：

获取每个所述告警预测模型的测试精度值；

对所有所述测试精度值进行数值比较处理，从所有所述测试精度值中筛选出数值最大的目标测试精度值；

从所有所述告警预测模型中筛选出与所述目标测试精度值对应的第一告警预测模型；

将所述第一告警预测模型作为所述目标告警预测模型；

所述基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，生成与所述指定监控指标数据对应的目标告警预测结果的步骤包括：

使用所述第一告警预测模型对所述指定监控指标数据进行预测处理，获取所述第一告警预测模型输出与所述指定监控指标数据对应的第二告警预测结果；

将所述第二告警预测结果作为与所述指定监控指标数据对应的所述目标告警预测结果。

获取每个所述告警预测模型的测试精度值，以及获取预设的精度阈值；

从所有所述测试精度值中筛选出数值大于所述精度阈值的指定测试精度值；

获取与各所述指定测试精度值分别对应的第二告警预测模型；

将所述第二告警预测模型作为所述目标告警预测模型；

将所述述指定监控指标数据分别输入至各所述第二告警预测模型内，获取各所述第二告警预测模型分别输出的与所述指定监控指标数据对应的第三告警预测结果；

对所有所述第三告警预测结果进行分析处理，判断所有所述第三告警预测结果中是否存在内容为包含告警数据的第四告警预测结果；

若是，生成与所述指定监控指标数据对应的内容为包含告警数据的目标告警预测结果；

若否，生成与所述指定监控指标数据对应的不包含告警数据的目标告警预测结果。

可选地，所述基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，生成与所述指定监控指标数据对应的目标告警预测结果的步骤之后，包括：

判断得到的所述目标告警预测结果的内容是否为包含告警数据；

若是，获取与所述指定作业对应的作业信息；

基于所述目标告警预测结果、所述作业信息与所述指定监控指标数据，生成相应的指定报警信息；

获取预设的邮件登录信息，以及获取与目标用户对应的目标邮件地址；

根据所述邮件登录信息登录至对应的邮件服务器；

通过所述邮件服务器将所述指定报警信息发送至所述目标邮件地址。

可选地，所述基于所述URL地址拉取与所述URL地址对应的作业的监控指标数据的步骤，包括：

获取预设的采集时间；

控制所述预设监控模块基于所述采集时间与所述URL地址拉取与所述URL地址对应的作业的监控指标数据。

本申请还提供一种基于模型的作业监控装置，包括：

第一注册模块，用于在作业成功启动后，为所述作业注册指标监控服务；其中，所述作业的数量包括多个；

第一获取模块，用于在完成为所述作业注册指标监控服务后，获取与所述作业对应的URL地址；

第二注册模块，用于将所述URL地址注册至预设注册中心上；

第二获取模块，用于调用预设监控模块对所述预设注册中心进行访问，获取所述预设注册中心存储的所述URL地址，并基于所述URL地址拉取与所述URL地址对应的作业的监控指标数据；

生成模块，用于基于预设的告警预测模型对所述监控指标数据进行预测处理，生成与所述监控指标数据对应的告警预测结果；

展示模块，用于对所述监控指标数据与所述告警预测结果进行展示。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本申请中提供的基于模型的作业监控方法、装置、计算机设备和存储介质，具有以下有益效果：

本申请中提供的基于模型的作业监控方法、装置、计算机设备和存储介质，通过为成功启动的作业注册指标监控服务，再自动将作业的URL地址注册到预设注册中心上，使得预设监控模块能够通过访问该预设注册中心来获取到URL地址，进而可以基于该URL地址拉取到对应的作业的监控指标数据，从而能够省去手动添加监控模块配置的动作，减少人力成本的消耗，有利于提高监控指标数据的采集效率。并且通过将作业的监控指标数据分散到各个作业进程内，不再对作业的数量有一定限制，有效地减轻了将所有作业的监控指标数据集中到一个进程而导致出现巨大的内存使用压力，避免了使用Pushgateway方式进行作业的监控指标数据收集而导致的进程内存溢出问题，有效的提高了作业监控的智能性。另外，还可使用预设的告警预测模型对所述监控指标数据进行预测处理，以实现准确智能的生成与所述监控指标数据对应的告警预测结果，有利于减少运维人员的工作量，进一步提高了作业监控的智能性。

附图说明

图1是本申请一实施例的基于模型的作业监控方法的流程示意图；

图2是本申请一实施例的基于模型的作业监控装置的结构示意图；

图3是本申请一实施例的计算机设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

参照图1，本申请一实施例的基于模型的作业监控方法，包括：

S1：在作业成功启动后，为所述作业注册指标监控服务；其中，所述作业的数量包括多个；

S2：在完成为所述作业注册指标监控服务后，获取与所述作业对应的URL地址；

S3：将所述URL地址注册至预设注册中心上；

S4：调用预设监控模块对所述预设注册中心进行访问，获取所述预设注册中心存储的所述URL地址，并基于所述URL地址拉取与所述URL地址对应的作业的监控指标数据；

S5：基于预设的告警预测模型对所述监控指标数据进行预测处理，生成与所述监控指标数据对应的告警预测结果；

S6：对所述监控指标数据与所述告警预测结果进行展示。

如上述步骤S1至S6所述，本方法实施例的执行主体为一种基于模型的作业监控装置。在实际应用中，上述基于模型的作业监控装置可以通过虚拟装置，例如软件代码实现，也可以通过写入或集成有相关执行代码的实体装置实现，且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例中的基于模型的作业监控装置，能够提高作业的监控指标数据的采集效率，以及提高作业监控的智能性。具体地，在作业成功启动后，首先为所述作业注册指标监控服务。其中，所述作业的数量包括多个。所述作业具体可为Flink框架的实时作业，或可称为实时任务。Flink为一种成熟的流式计算框架。另外，所述指标监控服务具体为Metrics服务，对作业进行指标监控服务注册是指生成用于获取该作业的监控指标数据的URL地址，该URL地址至少包括IP地址与端口，且IP地址和端口可以是基于随机选择的方式生成的。此外，URL地址为对应于Metrics服务的URL地址，也可称为MetricsURL地址。在完成为所述作业注册指标监控服务后，获取与所述作业对应的URL地址。其中，在为每一个作业注册指标监控服务后，均会生成与每一个作业一一对应的URL地址。

然后将所述URL地址注册至预设注册中心上。其中，所述预设注册中心具体为Consul注册中心，Consul是一种提供服务发现的微服务框架，是分布式的、高可用的、能够横向扩展的工具，用于为Prometheus提供服务发现的功能，即自动发现监控目标的方式，通过将监控目标的地址、端口、Label信息存入Consul，Prometheus便能够自动从Consul中获取这些信息，并为每个监控目标建立HTTP通道进行Pull采集。且Consul自带集群方案，无需额外工具。另外，Prometheus是一款开源的监控告警系统且自带时序数据库，基于Golang编写，性能强大；通过多种类型exporter(指标采集器)支持物理/虚拟节点、网络节点、容器集群、中间件/数据库、应用等多种资源的监控指标采集，从而满足混合资源的监控需求，支持混合资源的监控。

之后调用预设监控模块对所述预设注册中心进行访问，获取所述预设注册中心存储的所述URL地址，并基于所述URL地址拉取与所述URL地址对应的作业的监控指标数据。其中，本实施例中的预设监控模块具体为Prometheus监控模块，等同于所述Prometheus。具体的，预设监控模块通过与所述注册中心进行连接，从而可以获取到注册中心存储的作业的URL地址，进而可以基于各作业的URL地址与各作业进行通信，从而获取到各作业的监控指标数据。另外，还可先将需要进行监测的作业的监控指标注册到预设监控模块中，进而预设监控模块可在获取到预设注册中心内注册的作业的URL地址后，会基于URL地址中包含的端口与IP地址为每个作业建立相应的HTTP通道进行Pull采集，以实现对于各作业在运行过程中的与所述监控指标对应的监控指标数据的采集处理。另外，监控指标数据可包括运行时长、背压大小、数据流入流出operator速率等数据。

后续基于预设的告警预测模型对所述监控指标数据进行预测处理，生成与所述监控指标数据对应的告警预测结果。其中，可先调用预先训练好的预设数量的告警预测模型，然后基于各所述告警预测模型的测试精度值对所有所述告警预测模型进行筛选处理，得到符合预设条件的目标告警预测模型，进而基于所述目标告警预测模型对所述监控指标数据进行预测处理，生成与所述监控指标数据对应的告警预测结果。另外，每个所述告警预测模型分别是基于各自不同的训练数据集以及各自不同的分类算法训练生成的，所述训练数据集的个数等于所述预设数量，所述分类算法的个数等于所述预设数量。所述预设条件可指测试精度值的数值最大或测试精度值大于预设的精度阈值，即目标告警预测模型可为所有告警预测模型中测试精度值的数值最大的一个模型，或者目标告警预测模型可为所有告警预测模型中测试精度值大于预设的精度阈值的多个模型。最后对所述监控指标数据与所述告警预测结果进行展示。其中，可使用Grafana模块来对所述监控指标数据与所述告警预测结果进行展示。Grafana模块是一个开源的可视化数据展示的工具，提供创建、共享、浏览数据，提供各种图表和布局展示，主要用来展示Prometheus监控模块采集到的数据。

本实施例提出的作业监控方案，通过为成功启动的作业注册指标监控服务，再自动将作业的URL地址注册到预设注册中心上，使得预设监控模块能够通过访问该预设注册中心来获取到URL地址，进而可以基于该URL地址拉取到对应的作业的监控指标数据，从而能够省去手动添加监控模块配置的动作，减少人力成本的消耗，有利于提高监控指标数据的采集效率。并且本实施例通过将作业的监控指标数据分散到各个作业进程内，不再对作业的数量有一定限制，有效地减轻了将所有作业的监控指标数据集中到一个进程而导致出现巨大的内存使用压力，避免了使用Pushgateway方式进行作业的监控指标数据收集而导致的进程内存溢出问题，有效的提高了作业监控的智能性。另外，还可使用预设的告警预测模型对所述监控指标数据进行预测处理，以实现准确智能的生成与所述监控指标数据对应的告警预测结果，有利于减少运维人员的工作量，进一步提高了作业监控的智能性。

进一步地，本申请一实施例中，上述步骤S5，包括：

S500：获取与指定作业对应的监控指标数据；其中，所述指定作业为所有所述作业中的任意一个，将所述指定作业对应的监控指标数据记为指定监控指标数据；

S501：调用预先训练好的预设数量的告警预测模型，并获取各所述告警预测模型的测试精度值；其中，每个所述告警预测模型分别是基于各自不同的训练数据集以及各自不同的分类算法训练生成的，所述训练数据集的个数等于所述预设数量，所述分类算法的个数等于所述预设数量；

S502：基于所有所述预测精度值对所有所述告警预测模型进行筛选处理，得到符合预设条件的目标告警预测模型；

S503：基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，生成与所述指定监控指标数据对应的目标告警预测结果。

如上述步骤S500至S503所述，所述基于预设的告警预测模型对所述监控指标数据进行预测处理，生成与所述监控指标数据对应的告警预测结果的步骤，具体可包括：首先获取与指定作业对应的监控指标数据。其中，所述指定作业为所有所述作业中的任意一个，将所述指定作业对应的监控指标数据记为指定监控指标数据。然后调用预先训练好的预设数量的告警预测模型，并获取各所述告警预测模型的测试精度值。其中，每个所述告警预测模型分别是基于各自不同的训练数据集以及各自不同的分类算法训练生成的，所述训练数据集的个数等于所述预设数量，所述分类算法的个数等于所述预设数量。另外，上述分类算法至少可包括KNN、决策树、随机森林、SVM算法等算法。可基于训练数据集以及分类算法对预先建立的初始模型进行训练从而得到相应的告警预测模型。训练数据集中可包括多个样本数据，以及与样本数据对应的类别信息，类别信息包括包含告警数据或不包含告警数据。各告警预测模型的具体训练生成过程可参照现有的分类模型的训练生成过程，在此不作过多阐述。具体的，训练生成的多个告警预测模型之间具有以下差别：可从样本数据集中分别随机筛选出用于训练每一个告警预测模型的训练数据集。由于从样本数据集中挑选出的训练数据集不同，所采用的分类算法不同，因此生成的各个告警预测模型的模型预测分类的准确性与稳定性会有所不同，从而后续步骤可以根据各个告警预测模型的模型预测分类的准确性与稳定性进行综合考量，进而从所有所述告警预测模型筛选出用于对所述指定监控指标数据进行预测处理的一个或多个目标告警预测模型，以起到有效提高最终生成的与所述指定监控指标数据对应的目标告警预测结果的准确性。此外，对于上述预设数量的具体数值不做限定，可根据实际需求进行设置，例如可设为4。预设数量是指用户希望使用同一种分类算法来训练生成的告警预测模型的数量。通过基于用户输入的预设数量来基于每一种分类算法生成预设数量的多个告警预测模型，能够提高用户的使用体验。之后基于所有所述预测精度值对所有所述告警预测模型进行筛选处理，得到符合预设条件的目标告警预测模型。其中，所述预设条件可指测试精度值的数值最大或测试精度值大于预设的精度阈值。最后基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，生成与所述指定监控指标数据对应的目标告警预测结果。其中，指定监控指标数据的数据格式与上述训练样本数据的格式相同。本实施例在得到了作业的监控指标数据后，会从预先训练好的预设数量的告警预测模型中筛选出符合预设条件的目标告警预测模型，并基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，以实现准确智能且快速地生成与所述指定监控指标数据对应的目标告警预测结果，有效地提高了对作业的监控指标数据的告警识别效率与识别准确性。

进一步地，本申请一实施例中，上述步骤S501中的获取各所述告警预测模型的测试精度值，包括：

S5010：获取预设的测试数据集；其中，所述测试数据集包括多个测试数据，以及与各所述测试数据分别对应的类别信息；

S5011：分别将各所述测试数据输入至指定告警预测模型中，获取所述指定告警预测模型输出的与各所述测试数据分别对应的第一告警预测结果；其中，所述指定告警预测模型为所有所述告警预测模型中的任意一个模型；

S5012：基于与各所述测试数据分别对应的类别信息，获取所有所述第一告警预测结果中预测正确的指定告警预测结果；

S5013：获取所述指定告警预测结果的第一数量，以及获取所述第一告警预测结果的第二数量；

S5014：计算所述第一数量与所述第二数量的比值；

S5015：将所述比值作为所述指定告警预测模型的测试精度值。

如上述步骤S5010至S5015所述，所述获取各所述告警预测模型的测试精度值的步骤，具体可包括：首先获取预设的测试数据集。其中，所述测试数据集包括多个测试数据，以及与各所述测试数据分别对应的类别信息。另外，上述测试数据集可基于所述样本数据集生成，如可随机从样本数据集中获取预设数值比例的数据作为该测试数据集，且该预设数值比例可根据实际需求进行设置，例如可设为30％。然后分别将各所述测试数据输入至指定告警预测模型中，获取所述指定告警预测模型输出的与各所述测试数据分别对应的第一告警预测结果。其中，所述指定告警预测模型为所有所述告警预测模型中的任意一个模型。之后基于与各所述测试数据分别对应的类别信息，获取所有所述第一告警预测结果中预测正确的指定告警预测结果。其中，预测正确的指定预测分类结果是指所有所述第一告警预测结果中与相对应的测试数据的类别信息相同的告警预测结果。后续获取所述指定告警预测结果的第一数量，以及获取所述第一告警预测结果的第二数量。最后计算所述第一数量与所述第二数量的比值，并将所述比值作为所述指定告警预测模型的测试精度值。本实施例通过基于测试数据集来快速地计算出每一个告警预测模型的测试精度值，有利于后续基于所有所述测试精度值对所有所述告警预测模型进行筛选处理得到符合预设条件的目标告警预测模型，并基于所述目标告警预测模型对所述指定监控指标数据进行预测处理以生成与所述指定监控指标数据对应的目标告警预测结果。由于筛选后的目标告警预测模型具有较高的测试精度值，保证了生成的目标告警预测结果具有较高的准确性，从而有效地提高了对作业的监控指标数据的告警识别的准确性。

进一步地，本申请一实施例中，上述步骤S502，包括：

S5020：获取每个所述告警预测模型的测试精度值；

S5021：对所有所述测试精度值进行数值比较处理，从所有所述测试精度值中筛选出数值最大的目标测试精度值；

S5022：从所有所述告警预测模型中筛选出与所述目标测试精度值对应的第一告警预测模型；

S5023：将所述第一告警预测模型作为所述目标告警预测模型；

上述步骤S503，包括：

S5030：使用所述第一告警预测模型对所述指定监控指标数据进行预测处理，获取所述第一告警预测模型输出与所述指定监控指标数据对应的第二告警预测结果；

S5031：将所述第二告警预测结果作为与所述指定监控指标数据对应的所述目标告警预测结果。

如上述步骤S5020至S5031所述，所述基于所有所述预测精度值对所有所述告警预测模型进行筛选处理，得到符合预设条件的目标告警预测模型的步骤，具体可包括：首先获取每个所述告警预测模型的测试精度值。然后对所有所述测试精度值进行数值比较处理，从所有所述测试精度值中筛选出数值最大的目标测试精度值。之后从所有所述告警预测模型中筛选出与所述目标测试精度值对应的第一告警预测模型。最后将所述第一告警预测模型作为所述目标告警预测模型。进一步地，所述基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，生成与所述指定监控指标数据对应的目标告警预测结果的步骤，具体可包括：首先使用所述第一告警预测模型对所述指定监控指标数据进行预测处理，获取所述第一告警预测模型输出与所述指定监控指标数据对应的第二告警预测结果。在得到了所述第二告警预测结果后，将所述第二告警预测结果作为与所述指定监控指标数据对应的所述目标告警预测结果。其中，告警预测结果的内容为包含告警数据或不包含告警数据。本实施例通过对基于不同的分类算法训练生成的所有告警预测模型分别进行测试精度值的数值大小比较，并从所有告警预测模型中筛选出测试精度值最高的第一告警预测模型。由于第一告警预测模型的测试精度值最高，故其具有最高的准确性与稳定性，以使得后续会智能地使用该第一告警预测模型来对指定监控指标数据进行预测处理，并将一告警预测模型输出的对应的第二告警预测结果作为与所述指定作业对应的目标告警预测结果，有效地提高了对作业的监控指标数据的告警识别的准确性。

进一步地，本申请一实施例中，上述步骤S502，包括：

S5120：获取每个所述告警预测模型的测试精度值，以及获取预设的精度阈值；

S5121：从所有所述测试精度值中筛选出数值大于所述精度阈值的指定测试精度值；

S5122：获取与各所述指定测试精度值分别对应的第二告警预测模型；

S5123：将所述第二告警预测模型作为所述目标告警预测模型；

上述步骤S503，包括：

S5130：将所述述指定监控指标数据分别输入至各所述第二告警预测模型内，获取各所述第二告警预测模型分别输出的与所述指定监控指标数据对应的第三告警预测结果；

S5131：对所有所述第三告警预测结果进行分析处理，判断所有所述第三告警预测结果中是否存在内容为包含告警数据的第四告警预测结果；

S5132：若是，生成与所述指定监控指标数据对应的内容为包含告警数据的目标告警预测结果；

S5133：若否，生成与所述指定监控指标数据对应的不包含告警数据的目标告警预测结果。

如上述步骤S5120至S5133所述，所述基于所有所述预测精度值对所有所述告警预测模型进行筛选处理，得到符合预设条件的目标告警预测模型的步骤，具体可包括：首先获取每个所述告警预测模型的测试精度值，以及获取预设的精度阈值。其中，且对于上述精度阈值的数值不做具体限定，可根据实际使用需求进行设置。优选控制精度阈值的数值以使得到的上述指定测试精度值的数量为奇数。对于相同的监控指标数据，不同的告警预测模型对其进行预测处理后得到的告警预测结果可能并不完全相同。当只使用一个告警预测模型对指定监控指标数据进行预测处理时，得到的只有单一的告警预测结果，准确性较低，缺乏全面性。而通过采用多个第二告警预测模型来分别对上述指定监控指标数据进行预测处理，从而可以保证基于多个第二告警预测模型所生成的与所述指定作业对应的目标告警预测结果能够更加准确。然后从所有所述测试精度值中筛选出数值大于所述精度阈值的指定测试精度值。其中，指定测试精度值的数量为多个。之后获取与各所述指定测试精度值分别对应的第二告警预测模型。最后将所述第二告警预测模型作为所述目标告警预测模型。进一步地，所述基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，生成与所述指定监控指标数据对应的目标告警预测结果的步骤，具体可包括：首先将所述述指定监控指标数据分别输入至各所述第二告警预测模型内，获取各所述第二告警预测模型分别输出的与所述指定监控指标数据对应的第三告警预测结果。然后对所有所述第三告警预测结果进行分析处理，判断所有所述第三告警预测结果中是否存在内容为包含告警数据的第四告警预测结果。若存在内容为包含告警数据的第四告警预测结果，则生成与所述指定监控指标数据对应的内容为包含告警数据的目标告警预测结果。而若不存在内容为包含告警数据的第四告警预测结果，则生成与所述指定监控指标数据对应的不包含告警数据的目标告警预测结果。本实施例通过从所有告警预测模型中挑选出测试精度值大于所述精确阈值的第二告警预测模型来分别对指定监控指标数据进行预测处理，进而基于得到的所有告警预测结果来确定出最终的目标告警预测结果，从而可以避免仅利用一个告警预测模型来对指定监控指标数据进行预测处理而导致识别误差过大，从而有效地提高了对于指定监控指标数据的告警预测的准确率，提高了对作业的监控指标数据的告警识别的准确性。

进一步地，本申请一实施例中，上述步骤S503之后，包括：

S504：判断得到的所述目标告警预测结果的内容是否为包含告警数据；

S505：若是，获取与所述指定作业对应的作业信息；

S506：基于所述目标告警预测结果、所述作业信息与所述指定监控指标数据，生成相应的指定报警信息；

S507：获取预设的邮件登录信息，以及获取与目标用户对应的目标邮件地址；

S508：根据所述邮件登录信息登录至对应的邮件服务器；

S509：通过所述邮件服务器将所述指定报警信息发送至所述目标邮件地址。

如上述步骤S504至S509所述，当所述目标告警预测结果的内容为包含告警数据时，在执行完所述基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，生成与所述指定监控指标数据对应的目标告警预测结果的步骤之后，还可包括生成相应的指定报警信息并发送给目标用户的预警过程。具体地，首先判断得到的所述目标告警预测结果的内容是否为包含告警数据。若所述目标告警预测结果的内容是否为包含告警数据，获取与所述指定作业对应的作业信息。其中，所述作业信息可包括作业的名称信息。然后基于所述目标告警预测结果、所述作业信息与所述指定监控指标数据，生成相应的指定报警信息。其中，可预先存储一个报警信息模板，再将目标告警预测结果、所述作业信息与所述指定监控指标数据填充至所述报警信息模板内的相应位置处以生成该指定报警信息。之后获取预设的邮件登录信息，以及获取与目标用户对应的目标邮件地址。其中，上述目标用户可为与作业运作监控相关的监管人员。后续根据所述邮件登录信息登录至对应的邮件服务器。最后通过所述邮件服务器将所述指定报警信息发送至所述目标邮件地址。本实施例在获得了目标告警预测结果且判定了该目标告警预测结果为包含告警数据后，会智能地生成与指定作业相应的指定报警信息，并将该指定报警信息发送至目标用户对应的目标邮件地址，使得目标用户能够基于该指定报警信息及时了解到指定作业当前出现了报警情况的信息，从而能够及时做出相应处理，有利于能够尽快解决该指定作业所出现的报警现象，进而保证作业运作的安全性。

进一步地，本申请一实施例中，上述步骤S4的基于所述URL地址拉取与所述URL地址对应的作业的监控指标数据，包括：

S400：获取预设的采集时间；

S401：控制所述预设监控模块基于所述采集时间与所述URL地址拉取与所述URL地址对应的作业的监控指标数据。

如上述步骤S400至S401所述，所述基于所述URL地址拉取与所述URL地址对应的作业的监控指标数据的步骤，包括：首先获取预设的采集时间。其中，所述采集时间可为用户根据实际需求进行设置并存储于装置内，或者为装置根据历史经验确定，例如可设为15s。在得到了所述采集时间后，控制所述预设监控模块基于所述采集时间与所述URL地址拉取与所述URL地址对应的作业的监控指标数据。本实施例通过基于采集时间来完成数据采集，使得可以不用每秒均要拉取监控指标数据，即无需实时进行监控指标数据的拉取动作，有效地降低了数据获取操作的能耗，提高了数据采集的智能性。

本申请实施例中的基于模型的作业监控方法还可以应用于区块链领域，如将上述监控指标数据等数据存储于区块链上。通过使用区块链来对上述监控指标数据进行存储和管理，能够有效地保证上述监控指标数据的安全性与不可篡改性。

上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

参照图2，本申请一实施例中还提供了一种基于模型的作业监控装置，包括：

第一注册模块1，用于在作业成功启动后，为所述作业注册指标监控服务；其中，所述作业的数量包括多个；

第一获取模块2，用于在完成为所述作业注册指标监控服务后，获取与所述作业对应的URL地址；

第二注册模块3，用于将所述URL地址注册至预设注册中心上；

第二获取模块4，用于调用预设监控模块对所述预设注册中心进行访问，获取所述预设注册中心存储的所述URL地址，并基于所述URL地址拉取与所述URL地址对应的作业的监控指标数据；

生成模块5，用于基于预设的告警预测模型对所述监控指标数据进行预测处理，生成与所述监控指标数据对应的告警预测结果；

展示模块6，用于对所述监控指标数据与所述告警预测结果进行展示。

本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的基于模型的作业监控方法的步骤一一对应，在此不再赘述。

进一步地，本申请一实施例中，上述生成模块5，包括：

第一获取单元，用于获取与指定作业对应的监控指标数据；其中，所述指定作业为所有所述作业中的任意一个，将所述指定作业对应的监控指标数据记为指定监控指标数据；

调用单元，用于调用预先训练好的预设数量的告警预测模型，并获取各所述告警预测模型的测试精度值；其中，每个所述告警预测模型分别是基于各自不同的训练数据集以及各自不同的分类算法训练生成的，所述训练数据集的个数等于所述预设数量，所述分类算法的个数等于所述预设数量；

筛选单元，用于基于所有所述预测精度值对所有所述告警预测模型进行筛选处理，得到符合预设条件的目标告警预测模型；

第一生成单元，用于基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，生成与所述指定监控指标数据对应的目标告警预测结果。

进一步地，本申请一实施例中，上述调用单元，包括：

第一获取子单元，用于获取预设的测试数据集；其中，所述测试数据集包括多个测试数据，以及与各所述测试数据分别对应的类别信息；

第一输出子单元，用于分别将各所述测试数据输入至指定告警预测模型中，获取所述指定告警预测模型输出的与各所述测试数据分别对应的第一告警预测结果；其中，所述指定告警预测模型为所有所述告警预测模型中的任意一个模型；

第二获取子单元，用于基于与各所述测试数据分别对应的类别信息，获取所有所述第一告警预测结果中预测正确的指定告警预测结果；

第三获取子单元，用于获取所述指定告警预测结果的第一数量，以及获取所述第一告警预测结果的第二数量；

计算子单元，用于计算所述第一数量与所述第二数量的比值；

第一确定子单元，用于将所述比值作为所述指定告警预测模型的测试精度值。

进一步地，本申请一实施例中，上述筛选单元，包括：

第四获取子单元，用于获取每个所述告警预测模型的测试精度值；

第一筛选子单元，用于对所有所述测试精度值进行数值比较处理，从所有所述测试精度值中筛选出数值最大的目标测试精度值；

第二筛选子单元，用于从所有所述告警预测模型中筛选出与所述目标测试精度值对应的第一告警预测模型；

第二确定子单元，用于将所述第一告警预测模型作为所述目标告警预测模型；

上述第一生成单元，包括：

第二输出子单元，用于使用所述第一告警预测模型对所述指定监控指标数据进行预测处理，获取所述第一告警预测模型输出与所述指定监控指标数据对应的第二告警预测结果；

第三确定子单元，用于将所述第二告警预测结果作为与所述指定监控指标数据对应的所述目标告警预测结果。

进一步地，本申请一实施例中，上述筛选单元，包括：

第五获取子单元，用于获取每个所述告警预测模型的测试精度值，以及获取预设的精度阈值；

第三筛选子单元，用于从所有所述测试精度值中筛选出数值大于所述精度阈值的指定测试精度值；

第六获取子单元，用于获取与各所述指定测试精度值分别对应的第二告警预测模型；

第四确定子单元，用于将所述第二告警预测模型作为所述目标告警预测模型；

上述第一生成单元，包括：

第三输出子单元，用于将所述述指定监控指标数据分别输入至各所述第二告警预测模型内，获取各所述第二告警预测模型分别输出的与所述指定监控指标数据对应的第三告警预测结果；

判断子单元，用于对所有所述第三告警预测结果进行分析处理，判断所有所述第三告警预测结果中是否存在内容为包含告警数据的第四告警预测结果；

第一生成子单元，用于若是，生成与所述指定监控指标数据对应的内容为包含告警数据的目标告警预测结果；

第二生成子单元，用于若否，生成与所述指定监控指标数据对应的不包含告警数据的目标告警预测结果。

进一步地，本申请一实施例中，上述生成模块5，包括：

判断单元，用于判断得到的所述目标告警预测结果的内容是否为包含告警数据；

第二获取单元，用于若是，获取与所述指定作业对应的作业信息；

第二生成单元，用于基于所述目标告警预测结果、所述作业信息与所述指定监控指标数据，生成相应的指定报警信息；

第三获取单元，用于获取预设的邮件登录信息，以及获取与目标用户对应的目标邮件地址；

登录单元，用于根据所述邮件登录信息登录至对应的邮件服务器；

发送单元，用于通过所述邮件服务器将所述指定报警信息发送至所述目标邮件地址。

进一步地，本申请一实施例中，上述第二获取模块4，包括：

第四获取单元，用于获取预设的采集时间；

拉取单元，用于控制所述预设监控模块基于所述采集时间与所述URL地址拉取与所述URL地址对应的作业的监控指标数据。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中，该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储URL地址、监控指标数据、以及告警预测结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备，用于将数字信号转换为光信号，使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置，用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种基于模型的作业监控方法。

上述处理器执行上述基于模型的作业监控方法的步骤：

将所述URL地址注册至预设注册中心上；

对所述监控指标数据与所述告警预测结果进行展示。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的装置、计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于模型的作业监控方法，具体为：

将所述URL地址注册至预设注册中心上；

对所述监控指标数据与所述告警预测结果进行展示。

综上所述，本申请实施例中提供的基于模型的作业监控方法、装置、计算机设备和存储介质，通过为成功启动的作业注册指标监控服务，再自动将作业的URL地址注册到预设注册中心上，使得预设监控模块能够通过访问该预设注册中心来获取到URL地址，进而可以基于该URL地址拉取到对应的作业的监控指标数据，从而能够省去手动添加监控模块配置的动作，减少人力成本的消耗，有利于提高监控指标数据的采集效率。并且本申请实施例通过将作业的监控指标数据分散到各个作业进程内，不再对作业的数量有一定限制，有效地减轻了将所有作业的监控指标数据集中到一个进程而导致出现巨大的内存使用压力，避免了使用Pushgateway方式进行作业的监控指标数据收集而导致的进程内存溢出问题，有效的提高了作业监控的智能性。另外，还可使用预设的告警预测模型对所述监控指标数据进行预测处理，以实现准确智能的生成与所述监控指标数据对应的告警预测结果，有利于减少运维人员的工作量，进一步提高作业监控的智能性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于模型的作业监控方法，其特征在于，包括：

将所述URL地址注册至预设注册中心上；

对所述监控指标数据与所述告警预测结果进行展示。

2.根据权利要求1所述的基于模型的作业监控方法，其特征在于，所述基于预设的告警预测模型对所述监控指标数据进行预测处理，生成与所述监控指标数据对应的告警预测结果的步骤，包括：

3.根据权利要求2所述的基于模型的作业监控方法，其特征在于，所述获取各所述告警预测模型的测试精度值的步骤，包括：

计算所述第一数量与所述第二数量的比值；

将所述比值作为所述指定告警预测模型的测试精度值。

4.根据权利要求2所述的基于模型的作业监控方法，其特征在于，所述基于所有所述预测精度值对所有所述告警预测模型进行筛选处理，得到符合预设条件的目标告警预测模型的步骤，包括：

获取每个所述告警预测模型的测试精度值；

将所述第一告警预测模型作为所述目标告警预测模型；

5.根据权利要求2所述的基于模型的作业监控方法，其特征在于，所述基于所有所述预测精度值对所有所述告警预测模型进行筛选处理，得到符合预设条件的目标告警预测模型的步骤，包括：

将所述第二告警预测模型作为所述目标告警预测模型；

6.根据权利要求2所述的基于模型的作业监控方法，其特征在于，所述基于所述目标告警预测模型对所述指定监控指标数据进行预测处理，生成与所述指定监控指标数据对应的目标告警预测结果的步骤之后，包括：

若是，获取与所述指定作业对应的作业信息；

根据所述邮件登录信息登录至对应的邮件服务器；

7.根据权利要求1所述的基于模型的作业监控方法，其特征在于，所述基于所述URL地址拉取与所述URL地址对应的作业的监控指标数据的步骤，包括：

获取预设的采集时间；

8.一种基于模型的作业监控装置，其特征在于，包括：

第二注册模块，用于将所述URL地址注册至预设注册中心上；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。