CN112906971A - 批处理作业中运行时间的预测方法、装置和电子设备 - Google Patents
批处理作业中运行时间的预测方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112906971A CN112906971A CN202110257183.5A CN202110257183A CN112906971A CN 112906971 A CN112906971 A CN 112906971A CN 202110257183 A CN202110257183 A CN 202110257183A CN 112906971 A CN112906971 A CN 112906971A
- Authority
- CN
- China
- Prior art keywords
- key
- deep learning
- learning model
- running time
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000013136 deep learning model Methods 0.000 claims abstract description 57
- 230000015654 memory Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013551 empirical research Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提出一种批处理作业中运行时间的预测方法、装置和电子设备,其中,方法包括:获取多个批处理作业样本对应的多组训练数据;采用关键路径算法根据子运行时间确定每组训练数据对应的关键路径;确定训练数据的第一日期特征与关键路径的第一节点信息间的对应关系;根据关键路径及子运行时间确定关键路径对应的关键运行时间;基于第一节点信息与关键运行时间对深度学习模型进行训练,得到训练出的深度学习模型;根据对应关系及训练出的深度学习模型,对待预测批处理作业的运行时间进行预测。该方法通过执行上述步骤,结合关键路径和模型训练实现了批处理作业中的运行时间,不仅提高了预测效率,而且避免了人为预测引起的偏差,提升了工作效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种批处理作业中运行时间的预测方法、装置和电子设备。
背景技术
批处理作业,又称为批次处理作业,是指在计算机上无须人工干预而执行系列程序的任务。这些任务通常有相同的特点,即运行很长时间,然后周期性执行(例如,几乎每天执行一次).在很多诸如银行的金融机构中,每天都有上万笔批处理任务需要执行,运维人员往往需要耗费大量的时间来管理这些批处理任务,保证业务的正常运转。
近年来由于云计算技术的日益成熟,许许多多的行业开始在云上部署批处理任务。为了提高资源利用率,最常见的策略就是将批处理任务和其他在线服务共同部署在一个模块。不可避免地,由于所处的运行环境不同,以及工作负载不同,不同批处理任务的运行时间长短不同。
相关技术中,一般来说运维人员对于批处理作业的运行时间有一个预期,因为运行时间对于业务操作至关重要。如果运行时间超过了运维人员的预期,他们需要手动地给当前系统扩容,即分配更多的资源(CPU核心或者内存),重新启动批处理任务的剩余部分。然而,一方面这个运行时间的预期是经验性的,运维人员往往会设置一个较大的截止时间,这就导致了批处理作业不能被及时加速;另一方面,批处理作业数量众多,部署环境各异,运行时间差异很大,为每一个批处理作业设置特定的截止时间是很困难的。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
本发明第一方面实施例提出了一种批处理作业中运行时间的预测方法,包括:
获取多个批处理作业样本对应的多组训练数据,其中,每组训练数据包括每个所述批处理作业样本包含的子任务对应的子运行时间;
采用关键路径算法根据所述子运行时间确定每组所述训练数据对应的关键路径;
确定所述训练数据的第一日期特征与所述关键路径的第一节点信息间的对应关系;
根据所述关键路径及所述子运行时间确定所述关键路径对应的关键运行时间;
基于所述第一节点信息与所述关键运行时间对深度学习模型进行训练,得到训练出的深度学习模型;
根据所述对应关系及所述训练出的深度学习模型,对待预测批处理作业的运行时间进行预测。
根据本发明的一个实施例,所述采用关键路径算法根据所述子运行时间确定每组所述训练数据对应的关键路径,包括:
将每个所述子任务、及所述子任务对应的前继任务的名称以邻接表的形式存储;
对邻接表中的数据进行处理,以使所述邻接表中的各个节点构成有向无环图;
根据所述子运行时间确定所述邻接表中每个任务在一天内的第一运行时间;
将所述邻接表和所述第一运行时间输入关键路径计算函数;
采用宽度优先搜索遍历所述邻接表中的各个节点,直至得到关键路径。
根据本发明的一个实施例,所述根据所述关键路径及所述子运行时间确定所述关键路径对应的关键运行时间,包括:
获取所述关键路径的起始任务及结束任务;
从所述第一运行时间中选择所述起始任务对应的起始时间、及所述结束任务对应的结束时间;
根据所述起始时间和结束时间得到所述关键路径对应的关键运行时间。
根据本发明的一个实施例,所述对邻接表中的数据进行处理,包括:
确定所述邻接表中不合理的节点;
将所述不合理的节点删除。
根据本发明的一个实施例,所述基于所述第一节点信息与所述关键运行时间对深度学习模型进行训练,得到训练出的深度学习模型,包括:
将所述关键路径对应的第一节点信息和所述关键运行时间输入至深度学习模型;
调整模型参数,直至所述深度学习模型在以关键路径上的第一节点信息为输入时、输出所述关键路径对应的关键运行时间,得到并存储训练出的深度学习模型。
根据本发明的一个实施例,所述根据所述对应关系及所述训练出的深度学习模型,对待预测批处理作业的运行时间进行预测,包括:
获取待预测批处理作业对应的第二日期特征;
基于所述对应关系确定所述第二日期信息对应的第二节点信息;
将所述第二节点信息输入训练出的深度学习模型,以使所述训练出的深度学习模型输出待预测批处理作业的运行时间。
根据本发明的一个实施例,所述深度学习模型为CNN+LSTM的深度学习模型。
本发明第二方面实施例提出了一种批处理作业中运行时间的预测装置,包括:
获取模块,用于获取多个批处理作业样本对应的多组训练数据,其中,每组训练数据包括每个所述批处理作业样本包含的子任务对应的子运行时间;
第一确定模块,用于通过关键路径算法确定每组所述训练数据对应的关键路径;
第二确定模块,用于确定所述训练数据的第一日期特征与所述关键路径的第一节点信息间的对应关系;
第三确定模块,用于根据所述关键路径确定所述关键路径对应的关键运行时间;
第四确定模块,用于基于所述第一节点信息与所述关键运行时间对深度学习模型进行训练,得到训练出的深度学习模型;
预测模块,用于根据所述对应关系及所述训练出的深度学习模型,对待预测批处理作业的运行时间进行预测。
本发明第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明第一方面实施例提出的预测方法。
通过本发明的技术方案,结合关键路径和模型训练实现了批处理作业中的运行时间,不仅提高了预测效率,而且避免了人为预测引起的偏差,提升了工作效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种批处理作业中运行时间的预测方法的流程示意图;
图2为本发明实施例所提供的另一种批处理作业中运行时间的预测方法的流程示意图;
图3为本发明实施例所提供的一种批处理作业中运行时间的预测装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,相关技术中大多直接采用时间序列的预测方法,根据历史时间预测未来的完成时间。然而,这些方法无法直接用于预测多任务的批处理作业运行时间上界,因为批处理的任务是互相依赖的,比如一个任务的开始会依赖其他几个任务的完成,有的任务开始时间是固定时刻。为此,本发明实施例提出了一种批处理作业中运行时间的预测方法、装置和电子设备.
下面参考附图描述本发明实施例的批处理作业中运行时间的预测方法、装置和电子设备。
图1为本发明实施例所提供的一种批处理作业中运行时间的预测方法的流程示意图。
需要说明的是,该批处理作业中运行时间的预测方法的执行主体可以是计算机设备。
如图1所示,该批处理作业中运行时间的预测方法包括以下步骤:
步骤S11,获取多个批处理作业样本对应的多组训练数据,其中,每组训练数据包括每个批处理作业样本包含的子任务对应的子运行时间。
本发明实施例中,可预先采样多个批处理作业样本,其中,每个批处理作业样本是由一系列子任务根据依赖关系链组成的,每个子任务的处理均需要一定时间(可称为子运行时间)。为了进行模型的训练,可采集多个批处理作业样本,其中每个批处理作业样本对应一组训练数据,该训练数据可以包括子任务对应的子运行时间。
步骤S12,采用关键路径算法根据子运行时间确定每组训练数据对应的关键路径。
其中,关键路径算法可以是确定每个批处理作业样本或者每组训练数据的关键路径的算法。
需要说明的是,一个批处理作业是由一系列子任务根据依赖关系链接组成的,为了得到它在一次运行中的运行时间上界,可以定义关键路径的特点:关键路径是构成批处理作业的一系列子任务,对于批处理作业的每次运行,这些子任务的运行时间之和在所有工期中最长。
具体地,在获取到多组训练数据之后,可根据子运行时间采用关键路径算法得到每组训练数据对应的关键路径,以得到多条关键路径。也就是说,每个批处理作业样本对应一条关键路径。
步骤S13,确定训练数据的第一日期特征与关键路径的第一节点信息间的对应关系。
本发明实施例,可将训练数据的日期特征称为第一日期特征,可将关键路径的节点信息(子任务信息)称为第一节点信息。
具体地,在获取到多组训练数据和对应的关键路径之后,可将每组训练数据的第一日期特征与关键路径的第一节点信息联系起来,即得到对应关系,并可存储这一关系。
步骤S14,根据关键路径及子运行时间确定关键路径对应的关键运行时间。
其中,关键运行时间,可以理解为执行关键路径所需要的时间。
具体地,在确定出关键路径之后,进而可得到关键路径包含的多个子任务节点,根据关键路径包含的每个子任务节点对应的至运行时间,可确定出关键路径对应的关键运行时间。
步骤S15,基于第一节点信息与关键运行时间对深度学习模型进行训练,得到训练出的深度学习模型。
需要说明的是,同一条关键路径的第一节点信息与关键运行时间可以是一一对应的关系,于是本发明实施例可通过训练模型,使模型以节点信息为输入时,输出对应的关键运行时间。
也就是说,训练好的深度学习模型,可以是以节点信息为输入时,即输出对应的关键运行时间。
步骤S16,根据对应关系及训练出的深度学习模型,对待预测批处理作业的运行时间进行预测。
其中,待预测批处理作业,可以是任何场景下需要进行预测运行时间的批处理作业,本发明实施例对此不做任何限制。
具体地,在训练好深度学习模型之后,如果有需要预测运行时间的批处理作业,可根据第一日期特征与关键路径的第一节点信息间的对应关系、及训练好的深度学习模型预测运行时间。
由此,本发明实施例的批处理作业中运行时间的预测方法,通过执行上述步骤,结合关键路径和模型训练实现了批处理作业中的运行时间,不仅提高了预测效率,而且避免了人为预测引起的偏差,提升了工作效率。
在本发明的一个实施例中,上述步骤S12,即采用关键路径算法根据子运行时间确定每组训练数据对应的关键路径,可包括:将每个子任务、及子任务对应的前继任务的名称以邻接表的形式存储;对邻接表中的数据进行处理,以使邻接表中的各个节点构成有向无环图;根据子运行时间确定邻接表中每个任务在一天内的第一运行时间;将邻接表和第一运行时间输入关键路径计算函数;采用宽度优先搜索遍历邻接表中的各个节点,直至得到关键路径。
进一步地,对邻接表中的数据进行处理,可包括:确定所述邻接表中不合理的节点;将不合理的节点删除。
具体地,下面可以是关键路径的算法步骤:
(1)将系统管理信息表里面所有子任务以及它的前继任务的名称提取出来,以邻接表的形式存储。
(2)对于邻接表的数据进行处理,例如,对于邻接表中的一些不正确的节点进行删除,使邻接表构成的图原则上是一个有向无环图。
(3)存储所有邻接表中任务的运行时间记录,读取并存储所有任务某一天的运行时间。
(4)将(1)中的邻接表和任务中的运行时间记录作为参数输入关键路径计算函数。使用宽度优先搜索,从入度为0的节点开始统计到达每个任务节点的运行时间,如果有多条路径到达同一个节点,选择最长的时间作为该节点的运行时间,记录最长时间节点之间的”父子关系”,找到执行时间最长的出度为0的节点,作为关键路径上最后的节点,将它的父节点一个一个加入到列表中,即找到了该批处理作业的关键路。
在本发明的一个实施例中,上述步骤S14,即根据关键路径及子运行时间确定关键路径对应的关键运行时间,可包括:获取关键路径的起始任务及结束任务;从第一运行时间中选择起始任务对应的起始时间、及结束任务对应的结束时间;根据起始时间和结束时间得到关键路径对应的关键运行时间。
具体地,在得到关键路径之后,可从(3)中的任务的运行时间记录中可以得到起始任务的开始时间和最后任务的结束时间,两者相减即为关键路径的关键运行时间,也就是该批处理作业的最长执行时间,通过使用上述方法,即可得到每个业务系统每天的批处理作业的最长执行时间,将其存储为文件。
在本发明的一个实施例中,上述步骤S15,即基于第一节点信息与关键运行时间对深度学习模型进行训练,得到训练出的深度学习模型,可包括:将关键路径对应的第一节点信息和关键运行时间输入至深度学习模型;调整模型参数,直至深度学习模型在以关键路径上的第一节点信息为输入时、输出关键路径对应的关键运行时间,得到并存储训练出的深度学习模型。
其中,为了提高预测的精确度,深度学习模型为CNN(Convolutional NeuralNetwork,卷积神经网络)+LSTM(Long Short-Term Memory,长短期记忆)的深度学习模型。
卷积神经网络CNN是一种具有深度结构的前馈神经网络,它包含卷积计算,能够进行表征学习(representation learning),对输入信息进行平移不变分类,对于大型图像处理有出色表现,它的组成结构包括一个或多个卷积层和顶端的全连接层,以及相应的关联权重和池化层。这一结构使得卷积神经网络能够利用输入数据的二维结构,尽量少地选取人工特征,相比其他前馈网络,需要考量的参数更少,在图像分析和语音识别领域有广泛的应用。
由于本发明实施例的数据集是时间序列数据,而不是图像数据,所以本文使用的是一维卷积神经网络(1D CNN),从数据片段中提取感兴趣的特征,1D CNN的网络结构和一般CNN类似,也是由输入层、卷积层、激活层、池化层、全连接层组成。
长短期记忆(Long Short-Term Memory,LSTM)是一种特殊的RNN模型,它具有内部复杂的门结构:输入门、输出门、遗忘门.遗忘门会选择性地忘记过去某些信息,输入门是记忆现在的某些信息,输出门是将现在和过去的记忆进行合并。由于这个设计,误差向上一个状态传递时几乎没有衰减,所以权值调整的时候,对于远距离单元的输出带来的影响和结尾单元输出带来的影响可以同时发挥作用,最后训练出来的模型就具有较长时间范围内的记忆功能。
结合经验性研究章节得出的结论,可以发现批处理任务数据属于时间数据,因此适用于RNN、LSTM等链式连接的神经网络模型进行预测。由于批处理任务具有每天执行或者定期执行的周期性。因此更适合使用LSTM.LSTM比RNN的好处在于它增加了对过去状态的过滤,从而可以选择哪些状态对当前更有影响,而不是简单的选择最近的状态,这很好地解决了长期依赖的问题。批处理作业的执行时间在某个范围波动,且冗余数据较多,因而我们可以使用CNN的方式,像处理图片数据那样更多地关注局部特征,从而很大程度地减少运算量。综上,使用CNN+LSTM的深度学习模型,可以得到很好的预测效果。
具体地,将关键路径对应的第一节点信息和关键运行时间作为输入,训练CNN+LSTM的机器学习模型,调整参数使得模型能够根据一条关键路径上的节点信息得出较为准确的关键路径的关键运行时间,最后存储训练好的CNN+LSTM模型。
在本发明的一个实施例中,上述步骤S16,即根据对应关系及训练出的深度学习模型,对待预测批处理作业的运行时间进行预测,可包括:获取待预测批处理作业对应的第二日期特征;基于对应关系确定第二日期信息对应的第二节点信息;将第二节点信息输入训练出的深度学习模型,以使训练出的深度学习模型输出待预测批处理作业的运行时间。
本发明实施例,可将待预测批处理作业对应的日期特征称为第二日期特征,可将与第二日期特征对应的节点信息称为第二节点信息。
需要说明的是,可以通过步骤S16测试训练好的CNN+LSTM模型,测试可得,训练好的CNN+LSTM模型的预测时间的准确定更高。
具体地,在需要对待预测批处理作业的运行时间进行预测时,可获取待预测批处理作业对应的第二日期特征,进而通过遍历对应关系的方式得到对应的第二节点信息,将第二节点信息输入训练出的深度学习模型,以使训练出的深度学习模型输出待预测批处理作业的运行时间。
需要说明的是,可将日期特征与关键路径的节点信息间的对应关系以表格的方式存储,以通过查表的方式得到与第二日期特征对应的第二节点信息。
如图2所示,本发明实施例,在线下训练时,首先将训练数据中每一条数据通过关键路径算法找出关键路径,可通过归纳的方法,将训练数据的日期特征与关键路径上的节点信息联系起来,并存储这一联系。然后将上述得到的关键路径上的节点信息和关键路径用时作为输入,训练CNN+LSTM的机器学习模型,调整参数使得模型能够根据一条关键路径上的节点信息得出较为准确的关键路径的用时,最后存储训练好的模型。在线上预测时,使用输入的日期特征通过查表的方式得到它应有的关键路径上的节点信息,通过训练好的模型进行预测,预测出关键路径的用时就可以作为批处理作业总用时的预测值。
综上所述,本发明实施例的批处理作业中运行时间的预测装方法,通过执行上述步骤,结合关键路径和模型训练实现了批处理作业中的运行时间,不仅提高了预测效率,而且避免了人为预测引起的偏差,提升了工作效率,且通过CNN+LSTM深度学习模型,使得预测准确度更高,使用该模型,运维人员可以更轻松高效地管理批处理作业的运行,提升业务工作效率。
为了实现上述实施例,本发明提出了一种批处理作业中运行时间的预测装置。
图3为本发明实施例所提供的一种批处理作业中运行时间的预测装置的结构示意图。
如图3所示,该批处理作业中运行时间的预测装置100包括:获取模块110、第一确定模块120、第二确定模块130、第三确定模块140、第四确定模块150和预测模块160。
其中,获取模块110,用于获取多个批处理作业样本对应的多组训练数据,其中,每组训练数据包括每个所述批处理作业样本包含的子任务对应的子运行时间;
第一确定模块120,用于通过关键路径算法确定每组所述训练数据对应的关键路径;
第二确定模块130,用于确定所述训练数据的第一日期特征与所述关键路径的第一节点信息间的对应关系;
第三确定模块140,用于根据所述关键路径确定所述关键路径对应的关键运行时间;
第四确定模块150,用于基于所述第一节点信息与所述关键运行时间对深度学习模型进行训练,得到训练出的深度学习模型;
预测模块160,用于根据所述对应关系及所述训练出的深度学习模型,对待预测批处理作业的运行时间进行预测。
需要说明的是,本发明实施例的批处理作业中运行时间的预测装装置,通过执行上述步骤,结合关键路径和模型训练实现了批处理作业中的运行时间,不仅提高了预测效率,而且避免了人为预测引起的偏差,提升了工作效率。
为了实现上述实施例,本发明还提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本发明上述的批处理作业中运行时间的预测装方法。
该电子设备,在处理器执行指令时,可以结合关键路径和模型训练实现了批处理作业中的运行时间,不仅提高了预测效率,而且避免了人为预测引起的偏差,提升了工作效率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种批处理作业中运行时间的预测方法,其特征在于,包括:
获取多个批处理作业样本对应的多组训练数据,其中,每组训练数据包括每个所述批处理作业样本包含的子任务对应的子运行时间;
采用关键路径算法根据所述子运行时间确定每组所述训练数据对应的关键路径;
确定所述训练数据的第一日期特征与所述关键路径的第一节点信息间的对应关系;
根据所述关键路径及所述子运行时间确定所述关键路径对应的关键运行时间;
基于所述第一节点信息与所述关键运行时间对深度学习模型进行训练,得到训练出的深度学习模型;
根据所述对应关系及所述训练出的深度学习模型,对待预测批处理作业的运行时间进行预测。
2.根据权利要求1所述的方法,其特征在于,所述采用关键路径算法根据所述子运行时间确定每组所述训练数据对应的关键路径,包括:
将每个所述子任务、及所述子任务对应的前继任务的名称以邻接表的形式存储;
对邻接表中的数据进行处理,以使所述邻接表中的各个节点构成有向无环图;
根据所述子运行时间确定所述邻接表中每个任务在一天内的第一运行时间;
将所述邻接表和所述第一运行时间输入关键路径计算函数;
采用宽度优先搜索遍历所述邻接表中的各个节点,直至得到关键路径。
3.根据权利要求2所述的方法,其特征在于,所述根据所述关键路径及所述子运行时间确定所述关键路径对应的关键运行时间,包括:
获取所述关键路径的起始任务及结束任务;
从所述第一运行时间中选择所述起始任务对应的起始时间、及所述结束任务对应的结束时间;
根据所述起始时间和结束时间得到所述关键路径对应的关键运行时间。
4.根据权利要求2所述的方法,其特征在于,所述对邻接表中的数据进行处理,包括:
确定所述邻接表中不合理的节点;
将所述不合理的节点删除。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一节点信息与所述关键运行时间对深度学习模型进行训练,得到训练出的深度学习模型,包括:
将所述关键路径对应的第一节点信息和所述关键运行时间输入至深度学习模型;
调整模型参数,直至所述深度学习模型在以关键路径上的第一节点信息为输入时、输出所述关键路径对应的关键运行时间,得到并存储训练出的深度学习模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述对应关系及所述训练出的深度学习模型,对待预测批处理作业的运行时间进行预测,包括:
获取待预测批处理作业对应的第二日期特征;
基于所述对应关系确定所述第二日期信息对应的第二节点信息;
将所述第二节点信息输入训练出的深度学习模型,以使所述训练出的深度学习模型输出待预测批处理作业的运行时间。
7.根据权利要求1-6所述的方法,其特征在于,所述深度学习模型为CNN+LSTM的深度学习模型。
8.一种批处理作业中运行时间的预测装置,其特征在于,包括:
获取模块,用于获取多个批处理作业样本对应的多组训练数据,其中,每组训练数据包括每个所述批处理作业样本包含的子任务对应的子运行时间;
第一确定模块,用于通过关键路径算法确定每组所述训练数据对应的关键路径;
第二确定模块,用于确定所述训练数据的第一日期特征与所述关键路径的第一节点信息间的对应关系;
第三确定模块,用于根据所述关键路径确定所述关键路径对应的关键运行时间;
第四确定模块,用于基于所述第一节点信息与所述关键运行时间对深度学习模型进行训练,得到训练出的深度学习模型;
预测模块,用于根据所述对应关系及所述训练出的深度学习模型,对待预测批处理作业的运行时间进行预测。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110257183.5A CN112906971B (zh) | 2021-03-09 | 2021-03-09 | 批处理作业中运行时间的预测方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110257183.5A CN112906971B (zh) | 2021-03-09 | 2021-03-09 | 批处理作业中运行时间的预测方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906971A true CN112906971A (zh) | 2021-06-04 |
CN112906971B CN112906971B (zh) | 2022-02-18 |
Family
ID=76108035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110257183.5A Active CN112906971B (zh) | 2021-03-09 | 2021-03-09 | 批处理作业中运行时间的预测方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906971B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455643A (zh) * | 2023-10-13 | 2024-01-26 | 厦门国际银行股份有限公司 | 一种批处理作业的智能监控方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199820A (zh) * | 2014-07-03 | 2014-12-10 | 浙江大学 | 云平台MapReduce工作流调度优化方法 |
US20170024258A1 (en) * | 2015-07-21 | 2017-01-26 | Hartford Fire Insurance Company | System for optimizing batch job dependencies |
CN109039727A (zh) * | 2018-07-24 | 2018-12-18 | 中国银行股份有限公司 | 基于深度学习的消息队列监控方法及装置 |
CN110619423A (zh) * | 2019-08-06 | 2019-12-27 | 平安科技(深圳)有限公司 | 多任务预测方法、装置、电子设备及存储介质 |
US20200175374A1 (en) * | 2018-11-30 | 2020-06-04 | Baidu Usa Llc | Predicting deep learning scaling |
CN111737095A (zh) * | 2020-08-05 | 2020-10-02 | 北京必示科技有限公司 | 批处理任务时间监控方法、装置、电子设备及存储介质 |
CN112052958A (zh) * | 2020-09-04 | 2020-12-08 | 京东数字科技控股股份有限公司 | 模型训练的方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-03-09 CN CN202110257183.5A patent/CN112906971B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199820A (zh) * | 2014-07-03 | 2014-12-10 | 浙江大学 | 云平台MapReduce工作流调度优化方法 |
US20170024258A1 (en) * | 2015-07-21 | 2017-01-26 | Hartford Fire Insurance Company | System for optimizing batch job dependencies |
CN109039727A (zh) * | 2018-07-24 | 2018-12-18 | 中国银行股份有限公司 | 基于深度学习的消息队列监控方法及装置 |
US20200175374A1 (en) * | 2018-11-30 | 2020-06-04 | Baidu Usa Llc | Predicting deep learning scaling |
CN110619423A (zh) * | 2019-08-06 | 2019-12-27 | 平安科技(深圳)有限公司 | 多任务预测方法、装置、电子设备及存储介质 |
CN111737095A (zh) * | 2020-08-05 | 2020-10-02 | 北京必示科技有限公司 | 批处理任务时间监控方法、装置、电子设备及存储介质 |
CN112052958A (zh) * | 2020-09-04 | 2020-12-08 | 京东数字科技控股股份有限公司 | 模型训练的方法、装置、设备及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455643A (zh) * | 2023-10-13 | 2024-01-26 | 厦门国际银行股份有限公司 | 一种批处理作业的智能监控方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112906971B (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Verenich et al. | Survey and cross-benchmark comparison of remaining time prediction methods in business process monitoring | |
CN114756358B (zh) | 一种dag任务调度方法、装置、设备及存储介质 | |
CN104350471B (zh) | 在处理环境中实时地检测异常的方法和系统 | |
US20190018671A1 (en) | Apparatus and method for application deployment assessment | |
US10748072B1 (en) | Intermittent demand forecasting for large inventories | |
US20200310769A1 (en) | Method For Predicting The Successfulness Of The Execution Of A DevOps Release Pipeline | |
Schwegmann et al. | A method and tool for predictive event-driven process analytics | |
CN112052081B (zh) | 一种任务调度方法、装置及电子设备 | |
Bülbül et al. | A linear programming-based method for job shop scheduling | |
Pauwels et al. | Bayesian network based predictions of business processes | |
US7930700B1 (en) | Method of ordering operations | |
CN112632615B (zh) | 基于混合云环境的科学工作流数据布局方法 | |
Ataie et al. | A hybrid machine learning approach for performance modeling of cloud-based big data applications | |
Ullah | A method for predicting open source software residual defects | |
CN112906971B (zh) | 批处理作业中运行时间的预测方法、装置和电子设备 | |
JP2020187417A (ja) | 物性予測装置及び物性予測方法 | |
Scalingi et al. | Scalable provisioning of virtual network functions via supervised learning | |
Cordingly et al. | Function memory optimization for heterogeneous serverless platforms with cpu time accounting | |
Ke et al. | Addressing exposure bias in uplift modeling for large-scale online advertising | |
EP3798931A1 (en) | Machine learning training resource management | |
Casimiro et al. | A probabilistic model checking approach to self-adapting machine learning systems | |
Subramaniam et al. | Improving process models by discovering decision points | |
Nguyen | Managing Cold-start in The Serverless Cloud with Temporal Convolutional Networks | |
CN113190339A (zh) | 任务处理方法和装置 | |
Baskharon et al. | Predicting remaining cycle time from ongoing cases: A survival analysis-based approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |