CN113448808B

CN113448808B - 一种批处理任务中单任务时间的预测方法、系统及存储介质

Info

Publication number: CN113448808B
Application number: CN202111000535.5A
Authority: CN
Inventors: 张文池; 曹立; 隋楷心; 刘大鹏
Original assignee: Beijing Bishi Technology Co ltd
Current assignee: Beijing Bishi Technology Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-12
Anticipated expiration: 2041-08-30
Also published as: CN113448808A

Abstract

本发明提供一种批处理任务中单任务时间的预测方法、系统及存储介质，包括：获取所有跑批任务的历史数据；对所有跑批任务的历史数据进行聚类，并对聚类结果进行判定，实现跑批数据的指标类别的划分；获取单任务的历史数据，并对单任务的历史数据进行动态时间规整DTW检验，自动判断单任务是否存在特殊日；确定单任务的指标类别和特殊日；将获得的单任务的指标类别对应的数据，输入到一个训练网络模型中进行预测，最终获得批处理任务中单任务时间的预测值。本发明解决了无法实现批处理时间的整体动态监控、无法实现单任务时长过长或过短监控、人力及设备资源浪费严重的技术问题，对批处理单任务检测的针对性强、准确率高。

Description

一种批处理任务中单任务时间的预测方法、系统及存储介质

技术领域

本发明涉及批处理任务的时间预测，具体涉及批处理任务中单任务的时间预测方法。

背景技术

批处理任务，指任务会按照一定周期定时执行（比如每天执行），比如数据备份、业务对账等。批处理任务是金融行业最基础和最重要的任务，重要业务如果不能按时完成会直接影响第二天的正常营业（如结息、对账），所以对批处理任务运行的监控是特别重要的，例如，单任务的运行时间不能过长，会影响后续任务的如期完成，单任务的运行时间过短，往往意味着任务报错提前退出或者没有拿到期望的输入。

目前业界对于跑批时间的预测均采用比较基础的时序预测算法，由管理员依据经验设置固定阈值。然而，现有的时序预测算法难以适应动态变化的系统，并且特殊日的维护和阈值需额外设置，耗费大量的人力。

现有技术通常是针对跑批时间的整体进行预测和监控，并未对单任务的跑批时长进行监控，尤其是未对单任务执行时长过短进行监控和预警。现有技术CN111737095A同样针对不同类型的数据进行判断。为满足不同数据的特点提高训练精度，该专利的技术方案采用不同的模型训练人为划分的不同的类别数据。然而，一是人为划分的方式无法准确体现数据特点，二是训练模型无法动态根据实际数据特点调整，三是多个模型无法综合处理数据间的耦合，故而无法实现泛化数据精细化处理。

另外，为保障跑批业务的正常运行，通常会配置相当比例的冗余机器专门用于处理批处理任务，以防由机器故障导致的跑批任务失败（如某国有银行有6台服务器专门处理跑批任务，一般CPU利用率不超过40%），设备资源浪费严重。

发明内容

为解决现有技术存在的无法实现批处理时间的整体动态监控、无法实现单任务的时长监控、人力及设备资源浪费严重，无法精细化处理泛化跑批数据的技术问题，本发明提供：

一种批处理任务中单任务时间的预测方法，包括：S1获取所有跑批任务的历史数据；S2 根据获取的所有跑批任务的历史数据，对所有跑批任务进行聚类，并对聚类结果进行判定，实现跑批数据的指标类别的划分；S3 获取单任务的历史数据，并对单任务的历史数据进行动态时间规整DTW检验，自动判断单任务是否存在特殊日；S4 基于S2获得的指标类别，确定单任务的指标类别，以及基于S3的判断结果，确定单任务是否存在特殊日；S5 将获得的单任务的指标类别对应的数据，根据判定的聚类结果输入到一个训练网络模型中的多个通道，增设体现通道类型的数据标签，并输入公共的预测神经网络模块进行预测，最终获得批处理任务中单任务时间的预测值。

一种批处理任务中单任务时间的预测系统，包括以下模块：

数据获取模块，用于获取所有跑批任务的历史数据；指标类别划分模块，用于根据获取的所有跑批任务的历史数据，对所有跑批任务进行聚类，并对聚类结果进行判定，实现跑批数据的指标类别的划分；特殊日判断模块，用于获取的单任务的历史数据，并对单任务的历史数据进行动态时间规整DTW检验，自动判断单任务是否存在特殊日；单任务数据类别确定模块，用于基于指标类别划分模块获得的指标类别，确定单任务的指标类别，以及基于特殊日判断模块的判断结果，确定单任务是否存在特殊日；单任务时间预测模块，用于将获得的单任务的指标类别对应的数据，输入一个训练网络模型中进行预测，最终获得批处理任务中单任务时间的预测值。

一种存储介质，其存储有计算机程序；当所述计算机程序被计算机设备中的处理器执行时，计算机设备执行如上述任一项所述的方法。

本发明基于批处理任务的历史跑批时长数据，聚类后进行典型数据的指标分类，实现了特殊日的自动识别，进而对不同的指标类别数据通过输入层的异构神经网络单独训练，再经公共神经网络进行训练与检测，最终获得跑批任务中单任务的时间预测，并支持检测结果的反馈和优化，从而实现了批处理任务通用的整体动态监控，以及单任务的时间预测，在提高时间预测与异常检测准确度的同时，节省了人力及设备资源。本发明通过耦合聚类结果并整合形成一个训练网络模型，将泛化的各类跑批数据综合至一个可适应不同数据特点的网络模型中，实现泛化数据精细化处理。

附图说明

为了更清楚地说明发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是不同数据形态的时序数据；

图2是典型的具有特殊日（月度/季度）的时序数据；

图3是本发明技术方案的整体处理流程；

图4是本发明的方法流程图；

图5是本发明的训练网络模型。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一

本实施例提供了一种批处理任务中单任务时间的预测方法，如图1-5所示。

在所属领域，跑批任务的时序数据形态各异，有的数据周期性很明显（如历史统计分析，每周末会进行周分析），有的数据有节假日的特性（和线上业务相关的任务，如报表数据生成），有的数据有一定的趋势性（如数据备份任务），有的数据很稳定，偶尔有一些超长耗时的任务（可能是异常情况），图1（横轴表示时间，纵轴表示跑批耗时）给出了几种不同形态的跑批任务的时序数据。

另外，区别于一般的业务监控的时间序列，批处理任务存在很多“特殊日”，需要算法支持复杂的识别，特殊日可能包括但不限于:

i. 每个月的第一天、倒数第二天等

ii. 每个季度的最后一个月的20日

iii. 每年的最后一天

iv. 每个月的第一个工作日

图2是一个典型的具有特殊日的跑批任务的时序数据图，除了每个月的固定跑批，还有每个季度的固定跑批。

为实现不同数据形态的时序数据监测，自动识别特殊日，以及实现批处理的单任务监测，本发明提出一种批处理任务中单任务时间的预测方法，图3、4为本发明的整体处理过程示意图，包括以下步骤：

在不同的场景下，时间序列千差万别，本发明专注于跑批任务的历史执行时长。

S1获取所有跑批任务的历史数据。

具体的，每条历史数据取最新的700个数据点的数据（约2年的数据）。

S2 根据获取的所有跑批任务的历史数据，对所有跑批任务进行聚类，并对聚类结果进行判定，实现跑批数据的指标类别的划分。通过S2 对跑批数据的指标类别的划分，实现了针对不同数据指标类别的针对性训练，相比于现有技术采用统一模型对所有数据进行处理的做法，本发明有效提高了模型训练速度和预测结果准确度。

具体的，采用DBSCAN实现聚类。

进一步的，设置

,

，

。

作为一优先实施例，获得的聚类结果为3个，分别称为C1、C2、C3，其他未成簇的数据归为“其他类”O1。

S3 获取单任务的历史数据，并对单任务的历史数据进行动态时间规整DTW检验，自动判断单任务是否存在特殊日。若判定存在特殊日，对该任务的特殊日进行单独训练，本发明通过人为通配特殊日及基于特殊日并结合非特殊日的DTW检验的双轨识别，并提前对自动识别特殊日进行单独训练，有效提高了特殊日预测的针对性和准确率。

具体的，判断是否存在特殊日可通过以下方式实现：

S3.1 预设特殊日日期。

具体的，设置特殊日包含普通节日、春节、特殊行为日期（如11月11日、6月18日等大型促销日）、每月/每季度/每年的某天（如倒数某天或倒数第K个工作日）。

S3.2 利用动态时间规整DTW算法，自动识别是否存在特殊日。

具体的，以判断某个任务的历史数据是否存在某一个特殊日（如每月1日）为例，经以下方式实现自动识别：

S3.2.1 筛选获得属于这个特殊日的数据；

S3.2.2 计算特殊日日期的DTW距离，并计算非特殊日日期的DTW距离；DTW距离通过以下公式计算：

其中，

表示跑批任务的执行时间，

表示跑批任务的序号，

表示第

次跑批任务和第

次跑批任务耗时的差值的绝对值，

为第i次跑批任务和第j次跑批任务的匹配矩阵，

为第i-1次跑批任务和第j次跑批任务的匹配矩阵，

为第i次跑批任务和第j-1次跑批任务的匹配矩阵，

为第i-1次跑批任务和第j-1次跑批任务的匹配矩阵。。

S3.2.3 获取特殊日日期的DTW距离和非特殊日日期的DTW距离，并计算获取特殊日日期的DTW距离的分布和非特殊日日期的DTW距离的分布，通过K-S判断特殊日日期的DTW距离和非特殊日日期的DTW距离的分布是否一致，如果不一致，则判定计算的该任务的历史数据中存在特殊日类型。

S4 基于S2获得的指标类别，确定单任务的指标类别，以及基于S3的判断结果，确定单任务是否存在特殊日。

S5 将获得的单任务的指标类别对应的数据，根据判定的聚类结果输入到一个训练网络模型中的多个通道，增设体现通道类型的数据标签，并输入公共的预测神经网络模块进行预测，最终获得批处理任务中单任务时间的预测值。

其中，批处理任务中单任务时间的预测值表示单任务跑批时间的预测值。具体的，将不同的指标类别对应的数据和特殊日对应的数据放到一个训练网络模型中进行检测，训练网络模型包括神经网络异构处理模块和预测神经网络模块。本发明的网络模型如图5所示：

整个网络模型采用统一的目标函数，在网络模型最后输出预测结果后计算RMSE，并通过反向传播更新网络的权重。考虑到不同的数据具有不同的自身属性，本发明的网络模型的输入层采用异构结构（网络的尺寸不同），分为5部分，分别对应C1、C2、C3、O1的正常日的输入通道、以及特殊日数据的输入通道。

在一实施例中，C1通道设置为周期性明显的数据，C2通道设置为趋势性明显的数据，C3通道设置为波动值在极小范围内的数据，O1通道设置为波动范围较大，无明显特征的数据。通过网格搜索的方式，将按照上述四种特征聚类获得的数据，对应至同一模型的不同通道进行训练。不同通道分别适应数据特征，采用最佳匹配的神经元数量和结构、训练周期、及必要的其他参数。最佳匹配的神经元数量和结构、训练周期、及必要的其他参数的获得方式由单一通道的历史数据训练网络获得，并形成多种可选的固定搭配，以备适应不同特征的聚类后的数据。

上述方法将聚类后的不同类型的数据特征与训练模型相结合，模型的各个通道直接适应聚类后的数据特征，对跑批数据的特征、范围、波动程度均无特殊要求，更符合实际的跑批数据的特点，泛化兼容性更佳。此外，由于上述数据输入的是同一神经网络模型，而非现有技术公开的不同数据输入不同的多个神经网络模型，在后续的LSTM层和全连接层中多种不同特征的数据可以充分耦合，提高预测的精度。故而，本实施例通过耦合聚类结果并整合形成一个训练网络模型，将泛化的各类跑批数据综合至一个可适应不同数据特点的网络模型中，实现泛化数据精细化处理。

输入层神经网络根据不同数据的自身属性选择对应的输入神经元部分，并将其他的输入神经元部分在输入时置0，接下来经过各自的不同结构的LSTM层进行训练。其中，输入是指任务历史跑批时长的原始数据，如C1型数据是1 * 14的神经元，意味着把最近14天非特殊日的时长作为输入放入网络中。

经输入层各自不同结构的LSTM层训练后，进入预测神经网络模块，即公共神经网络模块，包括3层公共的LSTM层、1层公共的全连接层（MLP），最终输出对时间序列的预测值，也就是接下来一次跑批任务的预测时长。通过不同通道的LSTM数据数据输入至公共的LSTM层及全连接层前，所有数据集均带有标识源头的信息标签，使得在LSTM层及全连接层的所有数据集均带有体现通道的分类特点，进而在LSTM和MLP模型训练时，可针对不同的数据类型有不同的侧重点。本实施例通过在输入公共层的数据中差异性的增设体现通道类型的数据标签，有效提高了后续训练时的类型追溯性，进而提升反馈调优效率。

本发明通过在输入层对不同指标类别的数据、不同大小的数据分别训练，再将训练后的数据整合到公共神经网络模块进行统一的训练，最终获得时间预测值，相比于现有技术采用相同的模型实现所有数据的预测，或不基于不同指标不同大小进行划分的分别训练模型，或者分别采用相互独立的模型实现不同数据类别的预测的方式，本发明在有效提高数据处理的针对性和预测准确度的同时，降低了整个模型的复杂度，提高了计算效率。另外，在数据指标类别划分出现错误的情况下，由于公共神经网络模块的存在，相比于现有技术采用相互独立的模型实现不同数据类别预测的方式，本发明的预测结果也会相对更准确。综上，本发明将耦合聚类结果并整合形成一个训练网络模型，将泛化的各类跑批数据综合至一个可适应不同数据特点的网络模型中，实现泛化数据精细化处理。此外，通过进一步在输入公共层的数据中差异性的增设体现通道类型的数据标签，有效提高了后续训练时的类型追溯性，提升反馈调优效率。

作为一个实施例，本发明网络模型的LSTM和MLP采用pytorch实现。其中，本发明对LSTM的输入参数进行了设定，包括输入数据的大小和隐藏层的大小,num1*num2，num1表示输入数据的大小，num2表示隐藏层的大小，循环层的数量设置为1。同样作为一个实施例，本发明对MLP的输入维度和输出维度进行了设置，参见图5中的4*2。

本发明的目标函数采用的是预测的跑批时长和真实的跑批时长的RMSE(x,y)：

其中，

表示用于训练的跑批任务的时间序列，

表示预测函数，

表示实际的跑批任务的时间序列，

表示预测的第

个数据点，

表示预测的数据点个数。

具体的，上述参数采取搜索的方式，首先固定后续公共部分的参数，对前面特有的异构网络进行超参搜索，收敛后再固定前面异构网络的参数，对公共部分进行搜索，直到整体结构收敛。相比于整体搜索，上述搜索方式的搜索空间大大降低，收敛速度显著提升。

具体的，本发明采取对跑批任务进行动态的实时的持续训练，即最新的一次跑批任务完成后，先对其类型进行判断，同时训练得到这个跑批任务所含有的特殊日的情况。然后把最近一段时间的数据输入网络中进行训练，具体输入的数据长度取决于它的数据类型所对应的结构。最后能够得到下一次任务的预期时长以及它的特殊日的预期时长。

S6 根据预测结果，对训练网络模型进行反馈和优化学习。

具体的，可以针对以下几方面进行反馈：

1）针对特殊日是否符合实际业务的反馈

管理员可以手动增加或者删除某个特殊日，在下次训练中算法会优先考虑人工配置的部分，同时根据配置来修改K-S检验的置信程度的阈值。比如管理员认为一个

的特殊日并不特殊，那么阈值会自动修改为0.03对其余检测到的特殊日进行重新判断。

2）针对预测指标类别情况的反馈

管理员可以手动修改某个指标类别的情况，一旦修改后，根据该指标的实际距离修改eps参数，以使它能够属于目标类别，并重新对距离它很近的指标进行自动的类别修改。

3）针对于异常检测的判定范围的反馈

管理员可以手动修改某个指标的阈值范围，默认的10%可以根据实际情况进行调整。

在具体应用本发明的模型时，当程序接收到一个任务的开始信息后，先对其是否属于特殊日进行判断，然后取得训练好的模型中对应的预期时长作为任务执行时间的预测值。例如，本发明采用预测值的±10%作为合理的任务执行时间区域，一旦任务真实的执行时间超过这个范围，即产生报警信息，发给运维监控人员。

实施例二

本实施例还提供一种批处理单任务时间预测与异常检测系统，包括：

数据获取模块，用于获取所有跑批任务的历史数据。例如，每条历史数据取最新的700个数据点的数据（约2年的数据）。

指标类别划分模块，用于根据获取的所有跑批任务的历史数据，对所有跑批任务进行聚类，并对聚类结果进行判定，实现跑批数据的指标类别的划分。通过对跑批数据的指标类别的划分，实现了针对不同数据指标类别的针对性训练，相比于现有技术采用统一模型对所有数据进行处理的做法，本发明有效提高了模型训练速度和预测结果准确度。

作为实施例，采用DBSCAN实现聚类。

进一步的，设置

,

，

。

作为实施例，获得的聚类结果为3个，分别称为C1、C2、C3，其他未成簇的数据归为“其他类”O1。

特殊日判断模块，用于获取的单任务的历史数据，并对单任务的历史数据进行动态时间规整DTW检验，自动判断单任务是否存在特殊日。若判定存在特殊日，对该任务的特殊日进行单独训练，本发明通过提前自动识别特殊日并进行单独训练，有效提高了特殊日预测的针对性和准确率。

具体的，判断是否存在特殊日可通过以下方式实现：

S3.1 预设特殊日日期。

S3.2 利用动态时间规整DTW算法，自动识别是否存在特殊日。

具体的，以判断某个任务的历史数据是否存在某一个特殊日类型（如每月1日）为例，经以下方式实现自动识别：

S3.2.1 筛选获得属于这个特殊日的数据；

S3.2.2 计算特殊日日期的DTW距离，非特殊日日期的其他数据同样两两计算DTW距离；DTW距离通过以下公式计算：

其中，

表示跑批任务的执行时间，

表示跑批任务的序号，

表示第

次跑批任务和第

次跑批任务耗时的差值的绝对值，

为第i次跑批任务和第j次跑批任务的匹配矩阵，

为第i-1次跑批任务和第j次跑批任务的匹配矩阵，

为第i次跑批任务和第j-1次跑批任务的匹配矩阵，

为第i-1次跑批任务和第j-1次跑批任务的匹配矩阵。

S3.2.3 获取特殊日日期的DTW距离和非特殊日日期的DTW距离，并计算DTW距离的分布，通过K-S判断特殊日日期的DTW距离和非特殊日日期的DTW距离的分布是否一致，如果不一致，则判定计算的单任务的历史数据中存在特殊日类型。

单任务数据类别确定模块，用于基于指标类别划分模块获得的指标类别，确定单任务的指标类别，以及基于特殊日判断模块的判断结果，确定单任务是否存在特殊日。

单任务时间预测模块，用于将获得的单任务的指标类别对应的数据，输入一个训练网络模型中进行预测，最终获得批处理任务中单任务时间的预测值。

具体的，将不同的指标类别数据和特殊日的指标数据放到一个训练网络模型中进行训练与检测，训练网络模型包括神经网络异构处理模块和预测神经网络模块。本发明的网络模型如图5所示：

整个网络模型采用统一的目标函数，在网络模型最后输出预测结果后计算RMSE，并通过反向传播更新网络的权重。考虑到不同的数据具有不同的自身属性，本发明的网络模型的输入层采用异构结构，即，不同尺寸的网络，分为5部分，分别对应C1、C2、C3、O1的正常日的输入、以及不分类别的特殊日数据的输入。

经输入层各自不同结构的LSTM层训练后，进入预测神经网络模块，即公共神经网络模块，包括3层公共的LSTM层、1层公共的全连接层（MLP），最终输出对时间序列的预测值，也就是接下来一次跑批任务的预测时长。本发明通过在输入层对不同指标类别、不同尺寸的数据分别训练，再将训练后的数据整合到公共神经网络模块进行统一的训练，最终获得时间预测值，相比于现有技术采用完全相同的模型实现所有数据的预测，或者分别采用相互独立的模型实现不同数据类别的预测的方式，本发明在有效提高数据处理的针对性和预测准确度的同时，降低了整个模型的复杂度。另外，在数据指标类别划分出现错误的情况下，由于公共神经网络模块的存在，相比于现有技术采用相互独立的模型实现不同数据类别预测的方式，本发明的预测结果也会相对更准确。

作为一个实施例，本发明网络模型的LSTM和MLP采用pytorch实现。其中，本发明对LSTM的输入参数进行了设定，包括输入数据的大小和隐藏层的大小。num1*num2，num1表示输入数据的大小，num2表示隐藏层的大小，循环层的数量设置为1。同样作为一个实施例，本发明对MLP的输入维度和输出维度进行了设置，参见图5中的4*2。

其中，本发明目标函数采用的是预测的跑批时长和真实的跑批时长的RMSE(x,y)：

其中，

表示用于训练的跑批任务的时间序列，

表示预测函数，

表示实际的跑批任务的时间序列，

表示预测的第

个数据点，

表示预测的数据点个数。

反馈模块，用于基于预测结果，对训练网络模型进行反馈和优化学习。

具体的，可以针对以下几方面进行反馈：

1）针对特殊日是否符合实际业务的反馈

的特殊日并不特殊，那么阈值会自动修改为0.03并对其余检测到的特殊日进行重新判断。

2）针对预测指标类别情况的反馈

管理员可以手动修改某个指标类别的情况提供每个类别的典型指标样式，一旦修改后，根据该指标的实际距离修改eps参数，以使它能够属于目标类别，并重新对距离它很近的指标进行自动的类别修改。

3）针对于异常检测的判定范围的反馈

实施例三

本实施例提供一种计算机可读存储介质，其存储有计算机程序；当所述计算机程序被计算机设备中的处理器执行时，使得计算机设备执行实施例一任一所述的方法。

实施例一至三基于批处理任务的历史跑批时长数据，聚类后获得数据的典型指标分类，实现特殊日的自动识别后，通过神经网络异构处理模块对不同类别数据进行针对性的处理及融合，再经公共神经网络进行进一步的训练与检测，最终获得单任务跑批数据的时间预测，并支持检测结果的反馈和优化，从而实现了批处理任务通用的整体动态监控，以及单任务的时间预测和异常检测，在提高时间预测与异常检测准确度的同时，节省了人力及设备资源。本发明将聚类后的不同类型的数据特征与训练模型相结合，模型的各个通道直接适应聚类后的数据特征，对跑批数据的特征、范围、波动程度均无特殊要求，更符合实际的跑批数据的特征，泛化兼容性更佳。此外，由于上述数据输入的是同一神经网络模型，而非现有技术公开的不同数据输入不同的多个神经网络模型，在后续的LSTM层和全连接层中多种不同特征的数据可以充分耦合，提高预测的精度。

综上，本发明将耦合聚类结果并整合形成一个训练网络模型，将泛化的各类跑批数据综合至一个可适应不同数据特点的网络模型中，实现泛化数据精细化处理。此外，通过进一步在输入公共层的数据中差异性的增设体现通道类型的数据标签，有效提高了后续训练时的类型追溯性，提升反馈调优效率。

为了说明的目的，前述描述使用具体命名以提供对所述实施方案的透彻理解。然而，对于本领域的技术人员而言将显而易见的是，不需要具体细节即可实践所述实施方案。因此，出于例示和描述的目的，呈现了对本文所述的具体实施方案的前述描述。这些描述并非旨在是穷举性的或将实施方案限制到所公开的精确形式。对于本领域的普通技术人员而言将显而易见的是，鉴于上面的教导内容，许多修改和变型是可行的。另外，当在本文中用于指部件的位置时，上文和下文的术语或它们的同义词不一定指相对于外部参照的绝对位置，而是指部件的参考附图的相对位置。

此外，前述附图和描述包括许多概念和特征，其可以多种方式组合以实现多种有益效果和优点。因此，可组合来自各种不同附图的特征，部件，元件和/或概念，以产生未必在本说明书中示出或描述的实施方案或实施方式。此外，在任何特定实施方案和/或实施方式中，不一定需要具体附图或说明中所示的所有特征，部件，元件和/或概念。应当理解，此类实施方案和/或实施方式落入本说明书的范围。

Claims

1.一种批处理任务中单任务时间的预测方法，其特征在于，包括以下步骤：

S1获取所有跑批任务的历史数据；

S2 根据获取的所有跑批任务的历史数据，对所有跑批任务进行聚类，并对聚类结果进行判定，实现跑批数据的指标类别的划分；

S3 获取单任务的历史数据，并对单任务的历史数据进行动态时间规整DTW检验，自动判断单任务是否存在特殊日；

S4 基于S2获得的指标类别，确定单任务的指标类别，以及基于S3的判断结果，确定单任务是否存在特殊日；

S5 将获得的单任务的指标类别对应的数据，根据判定的聚类结果输入到一个训练网络模型中的多个通道，增设体现通道类型的数据标签，并输入公共的预测神经网络模块进行预测，最终获得批处理任务中单任务时间的预测值；

其中，所述训练网络模型包括神经网络异构处理模块和预测神经网络模块；将获得的单任务指标类别对应的数据分别输入到输入层的神经网络异构处理模块，经输入层与所述单任务指标类别对应的LSTM层训练后，进入预测神经网络模块，经预测神经网络模块计算后，最终输出对批处理任务中单任务时间的预测值。

2.根据权利要求1所述的批处理任务中单任务时间的预测方法，其特征在于，所述S2采用DBSCAN实现聚类，设置

,

，

。

3.根据权利要求1所述的批处理任务中单任务时间的预测方法，其特征在于，所述S3具体包括以下步骤：

S3.1 预设特殊日日期；

S3.2 利用动态时间规整DTW算法，自动识别是否存在特殊日。

4.根据权利要求3所述的批处理任务中单任务时间的预测方法，其特征在于，所述S3.2具体包括以下步骤：

其中，

表示跑批任务的执行时间，

表示跑批任务的序号，

表示第

次跑批任务和第

次跑批任务耗时的差值的绝对值；

为第i次跑批任务和第j次跑批任务的匹配矩阵，

为第i-1次跑批任务和第j次跑批任务的匹配矩阵，

为第i次跑批任务和第j-1次跑批任务的匹配矩阵，

为第i-1次跑批任务和第j-1次跑批任务的匹配矩阵；

S3.2.3 获取特殊日日期的DTW距离和非特殊日日期的DTW距离，并分别计算特殊日日期的DTW距离的分布和非特殊日日期的DTW距离的分布，通过K-S检验判断特殊日日期的DTW距离和非特殊日日期的DTW距离的分布是否一致，如果不一致，则判定计算的单任务的历史数据中存在特殊日类型。

5.根据权利要求1所述的批处理任务中单任务时间的预测方法，其特征在于：所述预测神经网络模块包括3层公共的LSTM层、1层公共的全连接层MLP。

6.根据权利要求1所述的批处理任务中单任务时间的预测方法，其特征在于，训练网络模型的目标函数采用的是时间的预测值和真实的跑批时长的RMSE：

其中，

表示用于训练的跑批任务的时间序列，

表示预测函数，

表示实际的跑批任务的时间序列，

表示预测的第

个数据点，

表示预测的数据点个数。

7.根据权利要求1所述的批处理任务中单任务时间的预测方法，其特征在于，所述批处理任务中单任务时间的预测方法还包括：S6根据预测结果，对训练网络模型进行反馈和优化学习，其中，所述反馈至少包括针对特殊日是否符合实际业务的反馈、针对预测指标类别情况的反馈或针对于异常检测的判定范围的反馈中的一项或几项的组合。

8.一种批处理任务中单任务时间的预测系统，其特征在于，包括以下模块：

数据获取模块，用于获取所有跑批任务的历史数据；

指标类别划分模块，用于根据获取的所有跑批任务的历史数据，对所有跑批任务进行聚类，并对聚类结果进行判定，实现跑批数据的指标类别的划分；

特殊日判断模块，用于获取的单任务的历史数据，并对单任务的历史数据进行动态时间规整DTW检验，自动判断单任务是否存在特殊日；

单任务数据类别确定模块，用于基于指标类别划分模块获得的指标类别，确定单任务的指标类别，以及基于特殊日判断模块的判断结果，确定单任务是否存在特殊日；

单任务时间预测模块，用于将获得的单任务的指标类别对应的数据，根据判定的聚类结果输入到一个训练网络模型中的多个通道，增设体现通道类型的数据标签，并输入公共的预测神经网络模块进行预测，最终获得批处理任务中单任务时间的预测值；

9.一种存储介质，其特征在于，其存储有计算机程序；当所述计算机程序被计算机设备中的处理器执行时，计算机设备执行如权利要求1-7任一项所述的方法。