CN117539760A

CN117539760A - 作业运行质量诊断方法及装置

Info

Publication number: CN117539760A
Application number: CN202311508996.2A
Authority: CN
Inventors: 周奕飞
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-09

Abstract

本发明公开了一种作业运行质量诊断方法及装置，可用于金融科技领域。该方法包括：获取作业实际的运行数据，将作业实际的运行数据与计划的运行数据进行对比；根据对比结果，确定作业运行类别；根据作业运行类别，确定各类作业对应的作业簇，根据计划的运行数据的阈值浮动值确定聚类半径；从正常运行作业簇中选取样本数据，对正常运行作业簇中的样本数据求平均值，得到正常运行作业簇的簇心；迭代聚类得到异常运行作业簇更新的簇心，重新对作业实际的运行数据进行聚类；根据聚类结果确定作业运行质量。本发明可以提高判别作业运行质量的准确性，规避噪声点的影响。

Description

作业运行质量诊断方法及装置

技术领域

本发明涉及金融科技领域，尤其涉及作业运行质量诊断方法及装置。

背景技术

本部分旨在为本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着计算机技术的不断发展和应用，作业调度成为企业信息化管理中的重要组成部分，并且在大型数据中心等场景中扮演着至关重要的角色。在计算机领域中，作业是指在特定的时间范围内由计算机系统执行的任务。为了更好地观测作业的运行质量，需要判断作业是否正常运行，以及需要进行哪些调整来提高系统的效率，现有技术中没有针对该问题的有效解决方案。

发明内容

本发明实施例提供一种作业运行质量诊断方法，用以提高判别作业运行质量的准确性，提升工作效率，该方法包括：

获取作业实际的运行数据，将作业实际的运行数据与计划的运行数据进行对比，运行数据包括运行开始时刻和运行结束时刻；

根据对比结果，确定作业运行类别；根据作业运行类别，确定各类作业对应的作业簇，所述作业簇包括正常运行作业簇和异常运行作业簇；

根据计划的运行数据的阈值浮动值确定聚类半径；

从正常运行作业簇中选取样本数据，对正常运行作业簇中的样本数据求平均值，得到正常运行作业簇的簇心；从异常运行作业簇中选取样本数据，对异常运行作业簇中的样本数据求平均值，得到异常运行作业簇的簇心；

重复执行如下步骤，直至异常运行作业簇的簇心不再变化或达到最大迭代次数：根据聚类半径、正常运行作业簇的簇心和异常运行作业簇的簇心，对作业实际的运行数据进行聚类，对聚类后的异常运行作业簇中的数据求平均值，作为异常运行作业簇更新的簇心，重新对作业实际的运行数据进行聚类；

根据聚类结果确定作业运行质量。

本发明实施例还提供一种作业运行质量诊断装置，用以提高判别作业运行质量的准确性，提升工作效率，该装置包括：

数据对比模块，用于获取作业实际的运行数据，将作业实际的运行数据与计划的运行数据进行对比，运行数据包括运行开始时刻和运行结束时刻；

作业簇确定模块，用于根据对比结果，确定作业运行类别；根据作业运行类别，确定各类作业对应的作业簇，所述作业簇包括正常运行作业簇和异常运行作业簇；

半径确定模块，用于根据计划的运行数据的阈值浮动值确定聚类半径；

簇心确定模块，用于从正常运行作业簇中选取样本数据，对正常运行作业簇中的样本数据求平均值，得到正常运行作业簇的簇心；从异常运行作业簇中选取样本数据，对异常运行作业簇中的样本数据求平均值，得到异常运行作业簇的簇心；

聚类模块，用于重复执行如下步骤，直至异常运行作业簇的簇心不再变化或达到最大迭代次数：根据聚类半径、正常运行作业簇的簇心和异常运行作业簇的簇心，对作业实际的运行数据进行聚类，对聚类后的异常运行作业簇中的数据求平均值，作为异常运行作业簇更新的簇心，重新对作业实际的运行数据进行聚类；

质量诊断模块，用于根据聚类结果确定作业运行质量。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述作业运行质量诊断方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述作业运行质量诊断方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述作业运行质量诊断方法。

本发明实施例中，获取作业实际的运行数据，将作业实际的运行数据与计划的运行数据进行对比，运行数据包括运行开始时刻和运行结束时刻；根据对比结果，确定作业运行类别；根据作业运行类别，确定各类作业对应的作业簇，所述作业簇包括正常运行作业簇和异常运行作业簇；根据计划的运行数据的阈值浮动值确定聚类半径；从正常运行作业簇中选取样本数据，对正常运行作业簇中的样本数据求平均值，得到正常运行作业簇的簇心；从异常运行作业簇中选取样本数据，对异常运行作业簇中的样本数据求平均值，得到异常运行作业簇的簇心；重复执行如下步骤，直至异常运行作业簇的簇心不再变化或达到最大迭代次数：根据聚类半径、正常运行作业簇的簇心和异常运行作业簇的簇心，对作业实际的运行数据进行聚类，对聚类后的异常运行作业簇中的数据求平均值，作为异常运行作业簇更新的簇心，重新对作业实际的运行数据进行聚类；根据聚类结果确定作业运行质量。这样，将作业运行情况分为正常运行、起始时间过晚、结束时间过晚以及起始/结束时间均过晚四种类型，通过事先统计部分正常作业运行开始时间和结束时间的平均值来确定正常作业簇的簇心，其他类别也依次统计自身的簇心，有效提高了判别作业运行质量的准确性，规避了噪声点的影响。同时规定了簇的半径，避免算法中将所有点都归类的情况，有效提高了判别作业运行质量的准确性，规避了噪声点的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的作业运行质量诊断方法的流程图；

图2为本发明实施例中提供的对作业实际的运行数据进行聚类的流程图；

图3为本发明实施例中提供的作业运行质量诊断装置的示意图；

图4为本发明实施例中提供的作业运行质量诊断装置的另一示意图；

图5为本发明实施例中提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

在本说明书的描述中，所使用的“包含”、“包括”、“具有”、“含有”等，均为开放性的用语，即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

本发明实施例提供了一种作业运行质量诊断方法，如图1所示，包括：

步骤101：获取作业实际的运行数据，将作业实际的运行数据与计划的运行数据进行对比，运行数据包括运行开始时刻和运行结束时刻；

步骤102：根据对比结果，确定作业运行类别；根据作业运行类别，确定各类作业对应的作业簇，所述作业簇包括正常运行作业簇和异常运行作业簇；

步骤103：根据计划的运行数据的阈值浮动值确定聚类半径；

步骤104：从正常运行作业簇中选取样本数据，对正常运行作业簇中的样本数据求平均值，得到正常运行作业簇的簇心；从异常运行作业簇中选取样本数据，对异常运行作业簇中的样本数据求平均值，得到异常运行作业簇的簇心；

步骤105：重复执行如下步骤，直至异常运行作业簇的簇心不再变化或达到最大迭代次数：根据聚类半径、正常运行作业簇的簇心和异常运行作业簇的簇心，对作业实际的运行数据进行聚类，对聚类后的异常运行作业簇中的数据求平均值，作为异常运行作业簇更新的簇心，重新对作业实际的运行数据进行聚类；

步骤106：根据聚类结果确定作业运行质量。

本发明实施例提供了一种作业运行质量诊断方法，将作业运行情况分为正常运行、起始时间过晚、结束时间过晚以及起始/结束时间均过晚四种类型，通过事先统计部分正常作业运行开始时间和结束时间的平均值来确定正常作业簇的簇心，其他类别也依次统计自身的簇心，有效提高了判别作业运行质量的准确性，规避了噪声点的影响。同时规定了簇的半径，避免算法中将所有点都归类的情况，对于还未被分配到某一个聚类的数据点将会被列为异常点分析其形成的原因。

具体实施时，为了更好地观测每日作业的运行情况，需要关注其运行开始时间和结束时间这两个指标。这些指标可以为管理员提供有关作业能否按计划运行的信息，以及需要进行哪些调整来提高系统的效率。

首先，从作业运行开始时间的角度看，可以通过比较每日作业的启动时间与计划启动时间之间(正常作业簇的簇心)的差异来了解它们是否按时启动。如果出现较大的延迟，会先去判断该作业的依赖作业或者上游作业是否已经完成，如果依赖作业或者上游作业未完成导致该作业未按时启动，则可以联系相关部门进行分析；若依赖作业或者上游作业已完成，则有可能是队列资源紧张或者作业优先级不高导致。对于队列资源紧张的情况，可以通过扩大资源或者调整作业运行时间的部署解决。对于作业优先级不高的情况，可以通过调整作业优先级，这样就可以在队列中优先执行。目前而言根据延迟原因确定相应的措施是根据历史得到的经验。

其次，从作业运行结束时间的角度看，可以判断作业是否能够按时完成。如果作业的运行时间超出了计划的执行时间(正常作业簇的簇心)，那么需要对系统进行相应的调整。结束时间的差异可以看出某一段时间内作业队列是否已经饱和拥挤，大量的作业在同一时间内运行会导致队列紧张，作业会长时间处于等待的状态。我们可以根据结束时间差异来分析一天中哪一时间段作业队列资源紧张，哪一时间段是正常的，可以有效的调整作业运行时间的部署，避免大量作业在同一时间内运行。

K-Means算法可以用来对数据进行聚类分析，可以将作业分为正常运行、起始时间过晚、结束时间过晚以及起始/结束时间均过晚四种类型。一般来说作业的开始运行时间和结束运行时间在不出现问题的情况下是相对稳定的，每天的开始运行时间和结束运行时间不会相差很大。

算法原理：

K-Means算法是一种典型的基于划分的聚类算法，也是一种无监督学习算法。K-Means算法的思想很简单，对给定的样本集，用欧氏距离作为衡量数据对象间相似度的指标，相似度与数据对象间的距离成反比，相似度越大，距离越小。

预先指定初始聚类数以及个初始聚类中心，按照样本之间的距离大小，把样本集划分为个簇根据数据对象与聚类中心之间的相似度，不断更新聚类中心的位置，不断降低类簇的误差平方和(Sum of Squared Error，SSE)，当SSE不再变化或目标函数收敛时，聚类结束，得到最终结果。

K-Means算法的核心思想：首先从数据集中随机选取k个初始聚类中心Ci(i≤1≤k)，计算其余数据对象与聚类中心Ci的欧氏距离，找出离目标数据对象最近的聚类中心Ci，并将数据对象分配到聚类中心Ci所对应的簇中。然后计算每个簇中数据对象的平均值作为新的聚类中心，进行下一次迭代，直到聚类中心不再变化或达到最大的迭代次数时停止。

空间中数据对象与聚类中心间的欧氏距离计算公式为：

其中，X为数据对象；Ci为第i个聚类中心；m为数据对象的维度(本申请实施例中的维度为二维即开始时间和结束时间)；Xj，Cij为X和Ci的第j个属性值。

整个数据集的误差平方和SSE计算公式为：

其中，SSE的大小表示聚类结果的好坏；k为簇的个数(本申请实施例中K＝3)。

在一实施例中，作业运行类别包括正常运行，相对于计划：运行开始时刻过晚、结束时刻过晚、开始和结束时刻均过晚。

在一实施例中，根据作业运行类别，确定各类作业对应的作业簇，包括：

根据正常运行的作业，确定正常作业簇；

根据相对于计划：运行开始时刻过晚、结束时刻过晚、开始和结束时刻均过晚的作业，确定相对于计划：运行开始时刻过晚、结束时刻过晚、开始和结束时刻均过晚的作业簇。

图2为本发明实施例中提供的对作业实际的运行数据进行聚类的流程图，如图2所示，本发明实施例中，根据聚类半径、正常运行作业簇的簇心和异常运行作业簇的簇心，对作业实际的运行数据进行聚类，包括：

步骤201：将作业实际的运行数据转化为二维图像上的点，将各作业簇的簇心作为聚类中心，计算二维图像上剩余点与各簇心间的距离；

步骤202：分别以各作业簇的簇心为圆心，将聚类半径内的范围确定为各作业簇的聚类范围；

步骤203：筛选各作业簇聚类范围内的点，将各作业簇聚类范围内的点聚类到距离最近的作业簇中。

在一实施例中，根据聚类结果确定作业运行质量，包括：

根据聚类结果确定离散点对应的作业实际的运行数据；

对离散点对应的作业实际的运行数据进行分析。

在一实施例中，还包括：

根据聚类结果确定异常运行作业簇对应的作业实际的运行数据；

对异常运行作业簇对应的作业实际的运行数据进行分析。

具体实施时，1.首先设置参数k,k的含义为将数据聚合成几类(这里取k＝4)。

2.从数据中随机选择一个点作为初始点，并选择一个半径作为搜索范围，计算所有其他点到这四(k)个点的距离。

3.找出离每个数据点最近的中心点,将该点划分到这个中心点所代表的簇当中去。

4.重新计算三个簇的质心，作为下一次聚类的中心点。

5.重复步骤3和步骤4，直到中心点不再变化或达到一定的迭代次数。

6.对于还未被分配到某一个聚类的数据点将会被列为异常点分析其形成的原因。

整个流程执行完毕之后，就可以看到区域内会形成四个区域，分别对应的是正常运行、起始时间过晚、结束时间过晚以及起始/结束时间均过晚四种类型，每日的作业都会用过这种方法来确定自己属于的类别。

对于起始时间过晚的簇，一般原因是依赖作业或上游作业未到、作业优先级不够、队列资源紧张导致的。如果依赖作业或者上游作业未完成导致该作业未按时启动，则可以联系相关部门进行分析；若依赖作业或者上游作业已完成，则有可能是队列资源紧张或者作业优先级不高导致。对于队列资源紧张的情况，可以通过扩大资源的方式或者调整作业运行时间的部署解决。对于作业优先级不高的情况，可以通过调整作业优先级，这样就可以在队列中优先执行。

对于结束时间过晚，一般原因是队列资源抢占导致，对于这种情况，可以调整作业运行时间的部署，避免大量作业在同一时间内运行。

对于起始/结束时间均过晚，则需要人员单独进行分析，有可能会出现运行时长和平时差不多的情况。

从起始时间和结束时间这两个指标来分析每日作业的运行质量，不仅可以帮助运维人员监测系统的运行状态，发现潜在的问题，还能够评估系统运行的质量和效率，提高系统的稳定性和可靠性。在日后的工作中，通过继续分析，可以更好地理解每日作业的运行质量，从而优化系统。

本发明实施例中还提供了一种作业运行质量诊断装置，如下面的实施例所述。由于该装置解决问题的原理与作业运行质量诊断方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

图3为本发明实施例中提供的作业运行质量诊断装置的示意图，如图3所示，该装置包括：

数据对比模块301，用于获取作业实际的运行数据，将作业实际的运行数据与计划的运行数据进行对比，运行数据包括运行开始时刻和运行结束时刻；

作业簇确定模块302，用于根据对比结果，确定作业运行类别；根据作业运行类别，确定各类作业对应的作业簇，所述作业簇包括正常运行作业簇和异常运行作业簇；

半径确定模块303，用于根据计划的运行数据的阈值浮动值确定聚类半径；

簇心确定模块304，用于从正常运行作业簇中选取样本数据，对正常运行作业簇中的样本数据求平均值，得到正常运行作业簇的簇心；从异常运行作业簇中选取样本数据，对异常运行作业簇中的样本数据求平均值，得到异常运行作业簇的簇心；

聚类模块305，用于重复执行如下步骤，直至异常运行作业簇的簇心不再变化或达到最大迭代次数：根据聚类半径、正常运行作业簇的簇心和异常运行作业簇的簇心，对作业实际的运行数据进行聚类，对聚类后的异常运行作业簇中的数据求平均值，作为异常运行作业簇更新的簇心，重新对作业实际的运行数据进行聚类；

质量诊断模块306，用于根据聚类结果确定作业运行质量。

根据正常运行的作业，确定正常作业簇；

在一实施例中，聚类模块305具体用于：

将作业实际的运行数据转化为二维图像上的点，将各作业簇的簇心作为聚类中心，计算二维图像上剩余点与各簇心间的距离；

分别以各作业簇的簇心为圆心，将聚类半径内的范围确定为各作业簇的聚类范围；

筛选各作业簇聚类范围内的点，将各作业簇聚类范围内的点聚类到距离最近的作业簇中。

在一实施例中，质量诊断模块306具体用于：

根据聚类结果确定离散点对应的作业实际的运行数据；

对离散点对应的作业实际的运行数据进行分析。

见图4，在一实施例中，还包括分析模块401，具体用于：

对异常运行作业簇对应的作业实际的运行数据进行分析。

基于前述发明构思，如图5所示，本发明还提出了一种计算机设备500，包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530，所述处理器520执行所述计算机程序530时实现前述作业运行质量诊断方法。

综上所述，本发明实施例中，获取作业实际的运行数据，将作业实际的运行数据与计划的运行数据进行对比，运行数据包括运行开始时刻和运行结束时刻；根据对比结果，确定作业运行类别；根据作业运行类别，确定各类作业对应的作业簇，所述作业簇包括正常运行作业簇和异常运行作业簇；根据计划的运行数据的阈值浮动值确定聚类半径；从正常运行作业簇中选取样本数据，对正常运行作业簇中的样本数据求平均值，得到正常运行作业簇的簇心；从异常运行作业簇中选取样本数据，对异常运行作业簇中的样本数据求平均值，得到异常运行作业簇的簇心；重复执行如下步骤，直至异常运行作业簇的簇心不再变化或达到最大迭代次数：根据聚类半径、正常运行作业簇的簇心和异常运行作业簇的簇心，对作业实际的运行数据进行聚类，对聚类后的异常运行作业簇中的数据求平均值，作为异常运行作业簇更新的簇心，重新对作业实际的运行数据进行聚类；根据聚类结果确定作业运行质量。这样，将作业运行情况分为正常运行、起始时间过晚、结束时间过晚以及起始/结束时间均过晚四种类型，通过事先统计部分正常作业运行开始时间和结束时间的平均值来确定正常作业簇的簇心，其他类别也依次统计自身的簇心，有效提高了判别作业运行质量的准确性，规避了噪声点的影响。同时规定了簇的半径，避免算法中将所有点都归类的情况，有效提高了判别作业运行质量的准确性，规避了噪声点的影响。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种作业运行质量诊断方法，其特征在于，包括：

根据计划的运行数据的阈值浮动值确定聚类半径；

根据聚类结果确定作业运行质量。

2.如权利要求1所述的方法，其特征在于，作业运行类别包括正常运行，相对于计划：运行开始时刻过晚、结束时刻过晚、开始和结束时刻均过晚。

3.如权利要求2所述的方法，其特征在于，根据作业运行类别，确定各类作业对应的作业簇，包括：

根据正常运行的作业，确定正常作业簇；

根据相对于计划：运行开始时刻过晚、结束时刻过晚、开始和结束时刻均过晚的作业，确定相对于计划：运行开始时刻过晚、结束时刻过晚、开始和结束时刻均过晚的作业簇；

异常运行作业簇包括：相对于计划：运行开始时刻过晚、结束时刻过晚、开始和结束时刻均过晚的作业簇。

4.如权利要求1所述的方法，其特征在于，根据聚类半径、正常运行作业簇的簇心和异常运行作业簇的簇心，对作业实际的运行数据进行聚类，包括：

5.如权利要求1所述的方法，其特征在于，根据聚类结果确定作业运行质量，包括：

根据聚类结果确定离散点对应的作业实际的运行数据；

对离散点对应的作业实际的运行数据进行分析。

6.如权利要求1所述的方法，其特征在于，还包括：

对异常运行作业簇对应的作业实际的运行数据进行分析。

7.一种作业运行质量诊断装置，其特征在于，包括：

质量诊断模块，用于根据聚类结果确定作业运行质量。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。