CN111523685B - 基于主动学习的降低性能建模开销的方法 - Google Patents

基于主动学习的降低性能建模开销的方法 Download PDF

Info

Publication number
CN111523685B
CN111523685B CN202010322601.XA CN202010322601A CN111523685B CN 111523685 B CN111523685 B CN 111523685B CN 202010322601 A CN202010322601 A CN 202010322601A CN 111523685 B CN111523685 B CN 111523685B
Authority
CN
China
Prior art keywords
model
performance
training
samples
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010322601.XA
Other languages
English (en)
Other versions
CN111523685A (zh
Inventor
孙广中
张杰鹏
孙经纬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010322601.XA priority Critical patent/CN111523685B/zh
Publication of CN111523685A publication Critical patent/CN111523685A/zh
Application granted granted Critical
Publication of CN111523685B publication Critical patent/CN111523685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于主动学习的降低性能建模开销的方法,通过把信息量作为预测性能值的权重,并进行更为精细的划分,将参数样本选择缩放到合适的范围,使得性能好或者信息量丰富的参数样本都有被选择的机会,以实现借助主动学习的查询策略,进一步降低建模的时间和计算开销的目标。

Description

基于主动学习的降低性能建模开销的方法
技术领域
本发明涉及程序性能建模技术领域,尤其涉及一种基于主动学习的降低性能建模开销的方法。
背景技术
程序性能建模(PerformanceModeling),目的是建立机器配置、系统参数、程序及其输入等,到程序性能如运行时间的关系,已有建模方法主要包括人工分析、模拟、经验建模等。其中,人工分析方法(AnalyticalModeling)需要建模专家和领域专家共同对程序进行人工分析以得到解析模型,但领域知识和人工分析会带来大量的人力和时间开销,因此这种方法只适用于意义重大或使用广泛的应用;在模拟方法(Simulation)中,人们使用软件来模拟运行环境以记录和分析更加精细的运行行为,但其缓慢的模拟过程是难以忍受的;经验建模方法(EmpiricalModeling)是指从数据中自动学习程序输入到性能的关系,而不需要领域知识、人工等昂贵的稀缺资源,因此可以广泛应用于多种场景,例如程序优化、资源选择、任务调度等。下面将详细介绍经验建模的相关工作。
Gibbons等人认为,在COW(Cluster Of Workstations)环境中,用户提交的作业可以根据属性(如可执行程序名字、用户名、申请的处理器个数等)划分为不同的类别,同一类别具有相似的执行时间,并基于这种假设在调度系统LSF中实现了性能预测模块,在一定程度上减少了作业平均等待时间。相比于Gibbons使用的与性能没有明确的因果关系的作业属性,后来的研究则使用与性能有直接或间接的因果关系的参数,例如机器配置、系统参数、程序输入等。Ipek等人在LLNL国家实验室使用神经网络模型自动学习SMG程序的输入和运行时间的关系,其中,程序的输入是在输入空间中随机均匀采样得到。由于某些程序的输入无法直接作为学习算法的输入,Leyton-Brown等人给出了一些特征抽取方面的建议,例如特征的抽取应当适用于所有输入,而且特征抽取过程的时间复杂度应当是低阶多项式等。在特征抽取方面,Hunter等人为广泛研究的NP-Hard问题(SAT、MIP、TSP)提出了明确并且适用于所有学习模型的新特征,如问题规模特征(例如变量个数)、图的特征(例如节点度的统计数据)等。相比于把程序的输入直接作为特征或者从输入中抽取特征,Huang等人在程序输入的基础上,通过对程序进行插桩,引入了运行时特征,例如循环次数、分支次数、变量赋值等。此外,与直接建立特征到性能模型的方法不同,Hoste等人使用基准程序套件(BenchmarkSuite)的数据来预测目标程序的性能,具体方法是把(基准程序和目标程序)独立于微架构的特征(Micro-architecture Independent Characteristics)转化到基准空间(BenchmarkSpace)中,基准空间中的距离表示程序的相似度,则目标程序的性能,可以通过目标程序在基准空间中的位置附近邻居的基准程序的性能进行加权平均得到。
以上经验建模方法中,参数空间的采样策略,大多是随机均匀采样或者从输入分布中采样,随机选取的数据,相比于精心挑选的数据,在一定程度上存在信息冗余,从而在随机采样策略下,学习算法需要更多的数据来建立模型。数据中每一个样本通常需要一次甚至多次完整地运行程序,更多的数据意味着更多次的运行程序,从而带来了大量的时间和计算资源开销。因此,减少参数空间的采样数量以及寻找更合理的采样策略,可以作为减少建模开销的一种手段。Balaprakash等人在程序性能调优的场景中,首次使用主动学习技术,迭代地从参数空间中选择当前信息量最大的样本,权衡了ALC和性能指标(其中ALC是指选择对输入空间中平均方差约减最多的样本),在相同样本数量下,基于主动学习的方法普遍要好于随机均匀采样的方法。后来,Nelson等人同样使用主动学习来进行高效的GPU代码转换,Ogilvie等人使用主动学习来降低迭代编译过程的高昂开销。
在已有的基于主动学习的性能建模工作中,Balaprakash等人采用Cohn提出的ALC查询策略,选择样本的目标是使得模型在输入空间的平均方差减少最大,但ALC查询策略存在这样一个问题:ALC优化的目标是整个空间的预测精度,而在性能调优任务中,只需要优先保证性能较好的空间的精度,因此,ALC查询策略并不适用于当前场景。
为了解决这个问题,Balaprakash在主动学习中加入了偏置采样(PerformanceBiasedSampling,记为PBS)的步骤,PBS算法如表1所示。
Figure GDA0003698500370000021
Figure GDA0003698500370000031
表1 PBS算法
该PBS算法:先选择性能较好的样本作为候选集,然后再对候选集应用主动学习中的查询策略。这种以先后顺序分别考虑性能和信息量的方法,过多地缩小了样本选择的范围,导致只有同时满足两种指标的样本才会被选择,而性能好-信息量贫乏或者性能差-信息量丰富的样本,并不会被选择,实际上,这些样本也应该有被选择的机会。
发明内容
本发明的目的是提供一种基于主动学习的降低性能建模开销的方法,能够降低建模的时间和计算开销。
本发明的目的是通过以下技术方案实现的:
一种基于主动学习的降低性能建模开销的方法,包括:
确定经验建模模型,以及主动采样的方案;
初始阶段,随机选择若干参数样本作为训练集对模型进行训练,得到初始模型;所述参数样本包括程序的多个输入参数以及性能指标;
迭代训练阶段:第一迭代时,使用初始模型,对参数空间中的每个参数样本,计算其预测性能值与信息量,并将信息量作为预测性能值的权重,从而根据加权后的预测性能值筛选出多个参数样本作为一个批次的训练数据,并进行模型训练;或者,筛选出多个参数样本后,通过设置置信区间过滤掉性能不符合要求的参数样本,将过滤后的参数样本作为一个批次的训练数据,再进行模型训练;下一次迭代时,使用上一次迭代训练得到的模型采用相同的方式,选出一个批次的训练数据进行模型训练,直至满足迭代终止条件。
由上述本发明提供的技术方案可以看出,通过把信息量作为预测性能值的权重,并进行更为精细的划分,将参数样本选择缩放到合适的范围,使得性能好或者信息量丰富的参数样本都有被选择的机会,以实现借助主动学习的查询策略,进一步降低建模的时间和计算开销的目标。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的信息量和预测性能的权衡示意图;
图2为本发明实施例提供的扩大样本选择范围的示意图;
图3为本发明实施例提供的对样本选择范围进行更精细划分的示意图;
图4为本发明实施例提供的一种基于主动学习的降低性能建模开销的方法的框架图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提高一种基于主动学习的降低性能建模开销的方法,该方法使用随机森林作为经验建模的模型,主动学习中采用基于数据池的采样方案(Pool-BasedSamplingScenario),可选的查询策略(QueryStrategy)包括非确定性采样(UncertaintySampling)、期望测试误差约减(ExpectedErrorReduction)、方差约减(VarianceReduction)等,并且在每次迭代过程中选择一个batch的样本,batch大小由用户定义,整体框架如表2所示。其中,
Line1-4:
从数据池
Figure GDA0003698500370000041
随机均匀采样ninit个样本(1),并由标注者Oracle标注(2),然后机器学习算法AlgorithmML从已有数据集
Figure GDA0003698500370000042
学习到一个模型
Figure GDA0003698500370000043
(3),接着调整
Figure GDA0003698500370000044
(4);
Line 5-10:
迭代地进行如下步骤,直到达到终止条件(5,10):调用查询策略QueryStrategy,使用当前模型
Figure GDA0003698500370000045
评估数据池
Figure GDA0003698500370000046
中每个样本,从中选择nbatch个加权后的预测性能值最大的样本(6),并由Oracle评测(7),调整
Figure GDA0003698500370000047
Figure GDA0003698500370000048
后(8),使用新训练集训练得到新模型(9)。
Figure GDA0003698500370000049
Figure GDA0003698500370000051
表2主动学习算法整体框架
如之前所述,现有的PBS算法从
Figure GDA0003698500370000052
中采样出一个候选子集,采样标准是:性能越好,被采样的概率越大;然后在候选子集里调用传统的查询策略选择要查询的样本。
虽然PBS倾向于选择性能好的样本,但另一方面它也缩小了样本的选择范围,进而减少了性能好的样本的数量。在图1中,把参数样本按照信息量和预测性能粗略地划分为四个区域,并分别用数字标识。PBS方法选择样本的范围局限在了区域②,而实际上,在性能调优场景中,除了那些信息量少并且性能很差的样本,即区域③,其他区域都应该是待选范围。因为信息量多的样本,往往总能显著地提高模型精度,而性能好的样本与建模目标是一致的,即倾向于对性能好的样本进行建模。因此,信息量多或者性能好这两个条件,只要有一个满足即可,而不是PBS方法认为的必须同时满足。
因此,本发明实施例中,在查询策略中做了如下两部分改进。
1、扩大样本选择范围。
针对上述对现有算法存在的人体,即样本选择范围局限于区域②(同时满足性能好和信息量多两个条件的样本),本发明实施例中,提出了一种新的查询策略:把信息量作为预测性能的权重(记为InformationWeightedPerformance,简写为IWP),从而扩大样本的选择范围,具体实现见表3所示。相比于PBS方法,IWP查询策略扩大了样本的选择范围,如图2所示,从性能的角度考虑,更大的范围意味着更多的性能好的样本以及性能更好的样本,从信息量的角度考虑亦是如此。另外,IWP方法还可以实现信息量和性能的权衡,在性能相当的样本中选择信息量较的样本,或者在信息量相当的样本中选择性能较好的样本。图2中,左图和右图分别是PBS和IWP方法的样本选择范围,更大的样本选择范围,意味着更多性能好的样本以及性能更好的样本。
Figure GDA0003698500370000061
表3 IWP算法
2、更为精细的划分。
优选的,为了进一步提升效果,可以对于上述扩大后的样本选择范围进行更为精细的划分,以进一步剔除对模型精度贡献较少的样本,如图3所示。注意到,对于那些在一定置信区间内性能依然很差的样本,对建模目标区域的精度的提高有限,或者说这些性能特别差的样本作用小于性能好的样本,因此将这些样本筛选出来,以减少模型对这一小部分样本的选择。此处,同样是以参数样本的加权后的预测性能值作为指标,通过设定的置信区间,剔除掉不满足设定要求的参数样本。
基于上述改进,本发明实施例上述方法的主要实现方案如图4所示,主要包括:
步骤1、确定经验建模模型,以及主动采样的方案。
以随机森林作为经验建模的模型,主动学习中采用基于数据池的采样方案。可选的查询策略(QueryStrategy)包括非确定性采样(UncertaintySampling)、期望测试误差约减(ExpectedErrorReduction)、方差约减(VarianceReduction)等。
模型采用随机森林(RandomForest)。随机森林是集成的树学习方法,因此即使在小数据集上也不容易发生过学习,并且具有较强的泛化能力;另一方面,随机森林可以很方便的应用到主动学习中,例如,把多棵树的预测值的方差作为预测的不确定性,进而用于衡量信息量,并且方差还可以用于计算一定置信度的置信区间,用于进一步剔除差的样本。
步骤2、初始阶段,随机选择若干参数样本作为训练集对模型进行训练,得到初始模型。
初始阶段,训练集不包含任何数据,因此,模型也不存在,无法选择参数样本,故可以先随机选择少量的参数样本作为训练集对模型进行训练,得到一个初始模型,从而开始以下迭代过程。
其中,参数样本一般包含程序的多个输入参数以及性能指标,这分别对应于机器学习中的特征Feature和标签Label。程序的输入参数通常是数值或非数值特征,例如矩阵的大小、算法的选择等等;性能指标可以是程序的执行时间、系统的吞吐量等。这些数据一般用CSV文件格式存储,可方便地读取和转换。以矩阵相乘程序MM为例,其输入一般包含m、n、k三个参数,分别指定了两个矩阵m*n和n*k;如果当m=n=k=10000时,程序的执行时间为0.01秒,则<10000,10000,10000,0.01>即为一个参数样本。
步骤3、迭代训练阶段:第一迭代时,使用初始模型,对参数空间中的每个参数样本,计算其预测性能值与信息量,并将信息量作为预测性能值的权重,从而根据加权后的预测性能值筛选出多个参数样本作为一个批次的训练数据,并进行模型训练;或者,筛选出多个参数样本后,通过设置置信区间过滤掉性能不符合要求的参数样本,将过滤后的参数样本作为一个批次的训练数据,再进行模型训练;下一次迭代时,使用上一次迭代训练得到的模型采用相同的方式,选出一个批次的训练数据进行模型训练,直至满足迭代终止条件。
本步骤优选实施方式如下:
1)使用模型和查询策略选择样本。对参数空间中的每个参数样本,使用模型计算其预测性能值和信息量(示例性的,可采用不确定度来衡量信息量),然后使用本发明提出的查询策略,选择出一个batch的参数样本。
具体实施过程中,查询策略可以仅使用第一种改进(即,扩大样本选择范围),也可以同时使用两种改进(如图4所示的虚线方框包围的查询策略)。
本发明实施例中,batch大小nbatch由用户自行设定。
2)评估参数样本。
每一次迭代过程中,选出一个批次的训练数据后,对选择的参数样本,运行相应的程序,并记录运行时间,从而得到一系列的<参数样本,运行时间>构成的样本集,
3)更新训练集和模型。
将样本集加入到训练集后,完成训练集的更新,再使用更新后的训练集进行模型训练。
4)重复以上1)~3)直至满足迭代终止条件,例如,训练集中的样本达到一定数量后停止迭代。
最终,经上述主动学习过程,可得到一个训练集以及预测模型,此预测模型对性能好的样本具有更高的精度,并且只需要更少的样本数量。
本发明实施例上述方案中,在性能调优的建模场景中,针对现有方法存在的问题提出了两点改进:
1)通过把信息量作为性能的权重,权衡了信息量和性能两种因素,扩大了样本的选择范围,使得模型选择了更多的性能好的样本以及性能更好的样本;
2)进一步对样本选择范围进行更为精细的划分,以减少对贡献较少的样本的选择。
通过这两点的改进,实现了在性能调优场景中进一步减少所需样本数量的目标,降低了建模的时间和计算开销。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种基于主动学习的降低性能建模开销的方法,其特征在于,包括:
确定经验建模模型,以及主动采样的方案;
初始阶段,随机选择若干参数样本作为训练集对模型进行训练,得到初始模型;所述参数样本包括程序的多个输入参数以及性能指标;
迭代训练阶段:第一次迭代时,使用初始模型,对参数空间中的每个参数样本,计算其预测性能值与信息量,并将信息量作为预测性能值的权重,从而根据加权后的预测性能值使用查询策略筛选出多个参数样本作为一个批次的训练数据,并进行模型训练;或者,筛选出多个参数样本后,通过设置置信区间过滤掉性能不符合要求的参数样本,将过滤后的参数样本作为一个批次的训练数据,再进行模型训练;下一次迭代时,使用上一次迭代训练得到的模型采用相同的方式,选出一个批次的训练数据进行模型训练,直至满足迭代终止条件。
2.根据权利要求1所述的一种基于主动学习的降低性能建模开销的方法,其特征在于,以随机森林作为经验建模的模型,主动学习中采用基于数据池的采样方案。
3.根据权利要求1所述的一种基于主动学习的降低性能建模开销的方法,其特征在于,每一次迭代过程中,选出一个批次的训练数据后,对选择的参数样本,运行相应的程序,并记录运行时间,从而得到一系列的包括运行时间的参数样本构成的样本集,将样本集加入到训练集后,完成训练集的更新,再使用更新后的训练集进行模型训练。
CN202010322601.XA 2020-04-22 2020-04-22 基于主动学习的降低性能建模开销的方法 Active CN111523685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010322601.XA CN111523685B (zh) 2020-04-22 2020-04-22 基于主动学习的降低性能建模开销的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010322601.XA CN111523685B (zh) 2020-04-22 2020-04-22 基于主动学习的降低性能建模开销的方法

Publications (2)

Publication Number Publication Date
CN111523685A CN111523685A (zh) 2020-08-11
CN111523685B true CN111523685B (zh) 2022-09-06

Family

ID=71903102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010322601.XA Active CN111523685B (zh) 2020-04-22 2020-04-22 基于主动学习的降低性能建模开销的方法

Country Status (1)

Country Link
CN (1) CN111523685B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422590B (zh) * 2021-01-25 2021-04-27 中国人民解放军国防科技大学 基于主动学习的网络流量分类方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857653A (zh) * 2019-01-17 2019-06-07 南通大学 一种基于主动学习的无监督缺陷程序模块识别方法
CN110770757A (zh) * 2017-11-10 2020-02-07 株式会社阿赖耶 信息处理装置以及信息处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
US7640224B2 (en) * 2007-03-26 2009-12-29 International Business Machines Corporation Active sampling collaborative prediction method for end-to-end performance prediction
WO2018153806A1 (en) * 2017-02-24 2018-08-30 Deepmind Technologies Limited Training machine learning models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110770757A (zh) * 2017-11-10 2020-02-07 株式会社阿赖耶 信息处理装置以及信息处理方法
CN109857653A (zh) * 2019-01-17 2019-06-07 南通大学 一种基于主动学习的无监督缺陷程序模块识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Active-learning-based surrogate models for empirical performance tuning";P. Balaprakash等;《2013 IEEE International Conference on Cluster Computing (CLUSTER)》;20140109;全文 *
"Benchmarking Machine Learning Methods for Performance Modeling of Scientific Applications";P. Malakar等;《2018 IEEE/ACM Performance Modeling, Benchmarking and Simulation of High Performance Computer Systems (PMBS)》;20190214;全文 *
"Importance weighted active learning";Alina Beygelzimer等;《ICML "09: Proceedings of the 26th Annual International Conference on Machine Learning》;20090614;全文 *
"基于运行时特征和机器学习的并行程序性能预测";王一名;《中国优秀博硕士学位论文全文数据库(硕士)·信息科技辑》;20200215;第2020年卷(第02期);全文 *

Also Published As

Publication number Publication date
CN111523685A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
US8224845B2 (en) Transaction prediction modeling method
Bei et al. RFHOC: A random-forest approach to auto-tuning hadoop's configuration
US7107191B2 (en) Modular architecture for optimizing a configuration of a computer system
US20130024167A1 (en) Computer-Implemented Systems And Methods For Large Scale Automatic Forecast Combinations
US20080114870A1 (en) Apparatus, system, and method for generating a resource utilization description for a parallel data processing system
CN113641701B (zh) 一种数据查询方法、系统、异构加速平台及存储介质
US8966087B2 (en) Load characteristic estimation system, load characteristic estimation method, and program
Gaussier et al. Online tuning of EASY-backfilling using queue reordering policies
US20110161263A1 (en) Computer-Implemented Systems And Methods For Constructing A Reduced Input Space Utilizing The Rejected Variable Space
CN110377519B (zh) 大数据系统的性能容量测试方法、装置、设备及存储介质
CN112764893B (zh) 数据处理方法和数据处理系统
CN110825522A (zh) Spark参数自适应优化方法及系统
Herodotou et al. A What-if Engine for Cost-based MapReduce Optimization.
CN112784273A (zh) 一种sql风险识别方法、装置及设备
CN111090401B (zh) 存储设备性能预测方法及装置
CN111523685B (zh) 基于主动学习的降低性能建模开销的方法
CN112181951B (zh) 一种异构数据库数据迁移方法、装置及设备
CN117608809A (zh) 基于梯度提升决策树的多任务计划进度预测系统
CN115730507A (zh) 模型引擎的构建、核函数处理方法、设备及存储介质
CN117827881A (zh) 一种基于历史信息的Spark SQL Shuffle任务数优化系统
CN111522644B (zh) 基于历史运行数据预测并行程序运行时间的方法
CN113298120B (zh) 基于融合模型的用户风险预测方法、系统和计算机设备
Bohlouli et al. Grid-HPA: Predicting resource requirements of a job in the grid computing environment
Robert et al. Record linkage for auto-tuning of High Performance Computing systems
Fan et al. Optimizing data regeneration and storage with data dependency for cloud scientific workflow systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant