CN117592011A - 一种基于特征相似的作业资源预测方法 - Google Patents
一种基于特征相似的作业资源预测方法 Download PDFInfo
- Publication number
- CN117592011A CN117592011A CN202311663636.XA CN202311663636A CN117592011A CN 117592011 A CN117592011 A CN 117592011A CN 202311663636 A CN202311663636 A CN 202311663636A CN 117592011 A CN117592011 A CN 117592011A
- Authority
- CN
- China
- Prior art keywords
- job
- value
- similar
- similarity
- regression model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于调度算法领域,具体公开了一种基于特征相似的作业资源预测方法;具体技术方案为:在经过预处理的历史作业集中,使用局部敏感哈希算法和局部匹配将作业分为多个子作业集;根据新作业的哈希值,找到新的相似作业子集;在新的子集中使用欧式距离度量函数计算作业之间的相似度,选择相似度小于相似度阈值的作业生成最终的相似作业集;在最终的相似作业集中,训练回归模型或使用均值法进行预测;最后,对预测结果进行调整得到最终的调度参数;本发明提供了对作业执行时间和内存量的准确预测,避免了资源的无效占用,降低了作业的平均响应时间,提高了系统整体吞吐量。
Description
技术领域
本发明属于调度方法技术领域,具体公开了一种基于跨域超算互联的智能调度回填策略混合梯度提升决策树优化方法。
背景技术
作业调度系统负责监控、调度和管理集群中的资源和作业,是HPC集群的重要组成部分。目前,由于HPC作业调度系统的通用性和应用无关性,它很难准确指定作业的资源需求(如执行时间、内存等)。因此,作业调度系统根据用户提交作业时申请的资源量为作业分配相应数量的资源。然而,大多数用户提供的申请值准确性较差,通常远大于作业实际使用的资源量,不仅造成资源的无效占用,还可能导致其他用户的作业响应时间增加。由此可见,准确预测作业所需的执行时间和内存量对提高作业调度系统性能具有重要意义。
目前,该领域研究主要基于历史日志来预测作业所需的执行时间和内存量,大致可以分为以下两种:1.基于机器学习的预测方法,该类方法使用处理之后的历史日志数据直接训练回归模型,选择单个或者集成多个预测性能较好的模型,用于预测未来作业所需的执行时间和内存量。2.基于分类和机器学习相结合的预测方法,该类方法根据历史作业的特征将相似作业聚类,针对聚类后的每个相似作业子集分别训练回归模型,新作业则使用对应相似作业子集的回归模型进行预测。
目前,公开了一种作业执行时间的预测方法,它分为两步:首先,按聚类的思想在历史日志中搜索新作业的相似作业(包括特征模板相似和K-近邻相似),得到相似作业集,其中模板参数和K值通过遗传算法确定;然后,根据相似作业的数值特征和实际执行时间,使用非线性SVR算法训练回归模型,从而预测新作业的执行时间。
发明内容
为解决现有技术存在的技术问题,本发明提供了一种基于特征相似的作业资源预测方法,预测准确率高,预测时间短。
为实现上述目的,本发明所采用的技术方案为:一种基于特征相似的作业资源预测方法,具体步骤如下:
步骤S1、根据历史日志数据集D中的文本特征元素生成一个映射字典d;
步骤S2、利用映射字典d对数据集D中的文本特征进行0、1映射,生成一个(n1+n2+n3+n4+n5)×njobs的特征矩阵F,对新作业的文本特征进行0、1映射,生成一个(n1+n2+n3+n4+n5)维向量v;
步骤S3、使用哈希函数将特征矩阵F哈希成一个签名矩阵S,对签名矩阵S进行哈希,将数据集D中的作业聚类成m个相似作业子集{s1,s2,…,sm};
步骤S4、使用步骤S3中的哈希函数计算向量v的哈希值,根据哈希值得到新作业对应的文本特征相似作业集si;
步骤S5、使用欧氏距离计算新作业与si中作业数值特征的相似度,保留相似度较小的作业生成相似作业集L;
步骤S6、根据相似作业集L中的作业数量,训练回归模型或者使用均值法来预测新作业的执行时间和内存量;
步骤S7、将预测值放大β倍,若放大后的值小于用户申请值则将它作为调度参数,作业调度系统根据调度参数对目标作业进行调度和资源分配,否则将用户申请值作为调度参数。
在步骤S6中,若L中作业个数n小于K,使用均值法获取目标作业所需资源预测值:
其中,jobnew为目标作业,Ri为L中第i个作业的真实资源使用值,否则,使用回归模型获取目标作业所需资源预测值;
若L中作业个数n不小于K,使用回归模型获取目标作业所需资源预测值,K为相似作业集L中的作业个数阈值,初始值设为10,逐次累加10,经过多次实验,选择训练的回归模型拟合度最好的值作为K。
回归模型包括执行时间回归模型和内存量回归模型:
将相似作业集L中作业的特征值作为自变量,作业的真实执行时间作为因变量,训练执行时间回归模型;
将相似作业集L中作业的特征值作为自变量,作业的真实内存使用值作为因变量,训练内存量回归模型。
在当前空闲资源大于调度参数时,直接为目标作业分配资源,否则,根据作业调度系统的调度策略挂起目标作业,等待空闲资源大于调度参数再为目标作业分配资源。
本发明是基于作业调度系统的历史日志数据来实现预测,可以在作业执行之前预测它所需的执行时间和内存量。本发明采用的作业特征有:1、用户名、组名、队列名、工作路径和应用类型5个文本特征;2、用户申请的CPU数、用户申请的节点数、用户预估的作业执行时间和用户预估的内存使用量4个数值特征;本发明将相似搜索和机器学习相结合,根据文本特征和数值特征搜索历史作业集中的相似作业,在相似作业集中训练回归模型或者使用均值法进行预测;本发明采用局部敏感哈希方法搜索相似作业,在提高预测准确率的同时缩短预测时间。
附图说明
图1为本发明的预测框架图。
图2为本发明的作业执行时间和内存量预测流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1-2所示,一种基于特征相似的作业资源预测方法,具体步骤如下:
步骤S1、根据历史日志数据集D中的文本特征元素{u1,u2,…,un1,g1,g2,…,gn2,q1,q2,…,qn3,w1,w2,…,wn4,a1,a2,…,an5}生成一个映射字典d。
步骤S2、利用d对数据集D中的文本特征进行0、1映射,生成一个(n1+n2+n3+n4+n5)×njobs的特征矩阵F,对新作业jobnew的文本特征进行0、1映射,生成一个(n1+n2+n3+n4+n5)维向量v。
步骤S3、使用哈希函数(simhash或minhash)将特征矩阵F哈希成一个签名矩阵S,对签名矩阵S进行哈希,将数据集D中的作业聚类成m个相似作业子集{s1,s2,…,sm}。
步骤S4、使用步骤3中的哈希函数计算向量v的哈希值,根据哈希值得到新作业jobnew对应的文本特征相似作业集si。
步骤S5、使用欧氏距离计算新作业jobnew与si中作业数值特征的相似度,保留相似度较小的作业生成相似作业集L。
步骤S6、根据相似作业集L中的作业数量,训练回归模型或者使用均值法来预测新作业jobnew的执行时间和内存量。
步骤S7、将预测值放大β倍,若放大后的值小于用户申请值则将它作为调度参数,否则将用户申请值作为调度参数。
基于局部敏感哈希查找文本相似作业集,本发明在经过预处理的历史作业集中,根据5个文本特征,使用局部敏感哈希算法通过两次降维和局部匹配将历史作业聚类为多个文本特征相似的子作业集。对于新作业,只需根据其哈希值就可找到相应的文本特征相似作业子集L1。
基于欧式距离查找数值相似作业集,本发明在上一步得到的文本特征相似作业子集L1中,根据4个数值特征,使用欧式距离度量函数计算新作业和子集中各个作业的相似度,选择相似度较小的作业生成最终的相似作业集L2。
作业执行时间和内存量预测,本发明得到最终的相似作业集L2后,可以根据相似作业的数值特征和实际执行时间/实际内存使用量分别训练回归模型进行预测,也可以只使用相似作业的实际执行时间/实际内存使用量,采用均值法获得新作业的预测执行时间和内存量。对预测结果进行调整得到最终的调度参数。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包在本发明范围内。
Claims (4)
1.一种基于特征相似的作业资源预测方法,其特征在于,具体步骤如下:
步骤S1、根据历史日志数据集D中的文本特征元素生成一个映射字典d;
步骤S2、利用映射字典d对数据集D中的文本特征进行0、1映射,生成一个(n1+n2+n3+n4+n5)×njobs的特征矩阵F,对新作业的文本特征进行0、1映射,生成一个(n1+n2+n3+n4+n5)维向量v;
步骤S3、使用哈希函数将特征矩阵F哈希成一个签名矩阵S,对签名矩阵S进行哈希,将数据集D中的作业聚类成m个相似作业子集{s1,s2,…,sm};
步骤S4、使用步骤S3中的哈希函数计算向量v的哈希值,根据哈希值得到新作业对应的文本特征相似作业集si;
步骤S5、使用欧氏距离计算新作业与si中作业数值特征的相似度,保留相似度较小的作业生成相似作业集L;
步骤S6、根据相似作业集L中的作业数量,训练回归模型或者使用均值法来预测新作业的执行时间和内存量;
步骤S7、将预测值放大β倍,若放大后的值小于用户申请值则将它作为调度参数,作业调度系统根据调度参数对目标作业进行调度和资源分配,否则将用户申请值作为调度参数。
2.根据权利要求1所述的一种基于特征相似的作业资源预测方法,其特征在于,在步骤S6中,若L中作业个数n小于K,使用均值法获取目标作业所需资源预测值:
其中,jobnew为目标作业,Ri为L中第i个作业的真实资源使用值;
若L中作业个数n不小于K,使用回归模型获取目标作业所需资源预测值。
3.根据权利要求2所述的一种基于特征相似的作业资源预测方法,其特征在于,所述回归模型包括执行时间回归模型和内存量回归模型:
将相似作业集L中作业的特征值作为自变量,作业的真实执行时间作为因变量,训练执行时间回归模型;
将相似作业集L中作业的特征值作为自变量,作业的真实内存使用值作为因变量,训练内存量回归模型。
4.根据权利要求3所述的一种基于特征相似的作业资源预测方法,其特征在于,在当前空闲资源大于调度参数时,直接为目标作业分配资源;否则,根据作业调度系统的调度策略挂起目标作业,等待空闲资源大于调度参数,再为目标作业分配资源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311663636.XA CN117592011A (zh) | 2023-12-06 | 2023-12-06 | 一种基于特征相似的作业资源预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311663636.XA CN117592011A (zh) | 2023-12-06 | 2023-12-06 | 一种基于特征相似的作业资源预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117592011A true CN117592011A (zh) | 2024-02-23 |
Family
ID=89911375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311663636.XA Pending CN117592011A (zh) | 2023-12-06 | 2023-12-06 | 一种基于特征相似的作业资源预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117592011A (zh) |
-
2023
- 2023-12-06 CN CN202311663636.XA patent/CN117592011A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390345B (zh) | 一种基于云平台的大数据集群自适应资源调度方法 | |
CN110399222B (zh) | Gpu集群深度学习任务并行化方法、装置及电子设备 | |
CN110321222B (zh) | 基于决策树预测的数据并行作业资源分配方法 | |
JP6756048B2 (ja) | コンピュータリソースのための予測的資産最適化 | |
CN111258767B (zh) | 复杂系统仿真应用的云计算资源智能分配方法与装置 | |
CN111431961B (zh) | 一种云数据中心的节能任务分配方法 | |
CN106874112B (zh) | 一种结合负载均衡的工作流回填方法 | |
CN107832129B (zh) | 一种面向分布式流计算系统的动态任务调度优化方法 | |
CN107908536B (zh) | Cpu-gpu异构环境中对gpu应用的性能评估方法及系统 | |
CN108055292B (zh) | 一种虚拟机向物理机映射的优化方法 | |
CN107357652A (zh) | 一种基于分段排序及标准差调整因子的云计算任务调度方法 | |
CN115118602B (zh) | 一种基于使用量预测的容器资源动态调度方法及系统 | |
CN104881322A (zh) | 一种基于装箱模型的集群资源调度方法及装置 | |
CN111325310A (zh) | 一种数据预测方法、装置及存储介质 | |
US11775344B1 (en) | Training task queuing cause analysis method and system, device and medium | |
CN113127173B (zh) | 一种异构感知的集群调度方法及装置 | |
CN112035234B (zh) | 分布式批量作业分配方法及装置 | |
CN111144701B (zh) | 一种分布式环境下etl作业调度资源分类评估的方法 | |
CN111258730A (zh) | 一种基于竞态条件的任务调度方法 | |
JP2021005387A5 (zh) | ||
CN117592011A (zh) | 一种基于特征相似的作业资源预测方法 | |
CN115794405A (zh) | 一种基于SSA-XGboost算法的大数据处理框架的动态资源分配方法 | |
WO2018168695A1 (ja) | 分散機械学習装置、分散機械学習方法および分散機械学習記録媒体 | |
CN106888237B (zh) | 一种数据调度方法及系统 | |
CN112187894B (zh) | 一种基于负载相关性预测的容器动态调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |