CN101697141A - 网格中基于历史数据建模的作业性能预测方法 - Google Patents
网格中基于历史数据建模的作业性能预测方法 Download PDFInfo
- Publication number
- CN101697141A CN101697141A CN200910236533A CN200910236533A CN101697141A CN 101697141 A CN101697141 A CN 101697141A CN 200910236533 A CN200910236533 A CN 200910236533A CN 200910236533 A CN200910236533 A CN 200910236533A CN 101697141 A CN101697141 A CN 101697141A
- Authority
- CN
- China
- Prior art keywords
- grid
- information
- resource
- candidate
- software
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000006870 function Effects 0.000 claims abstract description 41
- 238000013468 resource allocation Methods 0.000 claims abstract description 15
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000011160 research Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000009897 systematic effect Effects 0.000 claims description 3
- 230000001373 regressive effect Effects 0.000 abstract 5
- 238000004088 simulation Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 238000004570 scanning spreading resistance microscopy Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
网格中基于历史数据建模的作业性能预测方法,属于高性能网格中作业完成时间建模及预测方法,其特征在于在网格节点中建立基于CGSP网格软件和CGSV网格软件的历史作业信息库,内有N个历史作业信息,涉及资源配置、资源负载、作业请求及作业实际性能四个方面,同时建立一个由多个候选回归函数组成的集合,在预测时用户所提交的第N+1个作业根据第N个作业的回归模型得到,而该第N个作业的回归模型又根据第N个作业的作业实际性能和根据第N-1个作业的各个候选回归模型的实际性能预测值结果之差值中选择一个差值最小的候选回归模型得到,仿真实验证明本发明可以解决资源负载过大所导致的作业时间开销急剧上升的问题。
Description
技术领域
本发明涉及高性能网格中作业完成时间建模方法,属于分布式技术与系统领域。
背景技术
现代科学研究中人们求解问题的领域在不断扩大,所遇到的问题也越来越复杂,而且规模越来越大,解决这些问题所需要的计算能力也在大幅度提高,局部的计算资源已经无法满足需求。随着计算机和网络技术的迅猛发展,很多组织和科研单位都拥有计算能力很强的超级计算机,但这些机器往往因为只是孤立的为本单位服务而没有充分发挥作用,在大部分时间处于空闲状态。因此,打破地域的限制,协同使用在网络上广泛分布的各类资源已成为必须的要求。
网格技术的提出和发展正是为了满足上述这种要求,其目标是实现网格虚拟环境上异构资源的共享和协同工作,消除信息孤岛和资源孤岛。与它相关的技术包括:网络技术、XML技术、Web服务技术(web service)、语义网(semantic web)、高性能计算等。随着网格技术的逐渐成熟,结合了面向服务理念的开放式网格服务架构(Open Grid Services Architecture,OGSA)已成为网格界事实上的标准,而Web服务资源框架(WS-Resource Framework,WSRF)是OGSA的最新实现规范。
一个遵从OGSA架构的网格系统(也称为网格环境)通常包括以下三类实体:
●共享资源。真正提供计算能力、能独立运行的对象,如安装了操作系统的计算机,网络,存储系统等,是网格系统赖以运行的物质基础。网格中的共享资源由个人/组织(称为“资源所有者”或“管理员”)按照自身意愿所贡献,对外表现为自治的单位个体。资源所有者可以对其贡献的共享资源加以诸如“只有在机器负载不超过50%时才能被网格系统使用”之类的限定,用于限制网格系统对其共享资源的使用。一般情况下,加入网格系统的共享资源也称为网格节点。
●网格服务。基于共享资源的本地运行环境(如操作系统)、为达到一定的功能目的来编程开发的功能实体。网格服务通常按照特定的网格标准/规范(如WSRF)来实现,部署在网格节点之上,接收用户的调用,利用共享资源的能力进行处理之后向用户返回结果。将共享资源上配备的软件、程序等实体具有的功能发布为网格服务的过程称为服务包装。可以将多个网格服务按照一定的流程进行组合,发布为工作流网格服务,向用户提供更强大的功能。工作流服务和一般的网格服务对于用户而言没有区别,均为符合了特定网格标准/规范的网格服务。
●用户。调用网格服务的实体,又称为用户节点。用户可以是网格系统中的某个网格节点/网格服务,也可以是网格系统之外的对象实体。
虽然网格技术的发展使得资源的共享逐渐成为了一种现实,但是如何使得这些资源得到高效率的利用仍然是一个具有挑战性的问题。各种网格技术标准使得在网格中可以更容易地集成大量的资源。但是,资源数量的增加也使得资源的选择成为了一个不可回避的问题。当用户提交一个计算请求时,系统需要决定应该将这个请求调度给系统中的哪一个资源。虽然已经有不少有关网格中资源调度方面的研究成果。然而,与其它系统中的资源相比较,网格资源具有异构性、分布式、动态性等特点。在网格中进行资源的合理调度将具有比其他系统中更大的复杂度。
平衡负载和提高作业执行效率是网格调度系统中普遍遵循的两个重要目标。平衡负载主要是从资源提供者的角度出发,用户作业负载应该相对公平地在各个资源之间平衡。提高作业执行效率主要是从网格用户的角度出发,网格系统应该尽可能高质量地完成用户提交的作业。无论哪一个目标,网格系统在进行调度之前都需要了解资源的软硬件配置、资源动态负载以及作业性能模型等三方面信息。作业性能模型主要是用来描述在特定的软/硬件配置和动态负载下,用户作业的完成质量。作业完成质量可能包括时间开销、资源(cpu、内存、带宽、磁盘)占用量、结果的准确性等。其中,作业时间开销往往是用户最关心的一个指标。在网格中,前两个方面信息的取得可以依赖专门的“网格信息中心”和“网格监控系统”等子系统完成。但没有一个简单的途径可以有效地获取第三方面的信息。
图1给出一个网格中在异构资源之间进行作业调度的典型场景。图中所示横坐标为时间轴,纵坐标为一组网格上的可用资源。横坐标中给出了从T(0)到T(6)共7个不同的时刻,且当前处于T(1)时刻。纵坐标中的一组资源包括了具有不同容量大小的三个资源。同时,图中给出了三个无色方框,分别表示三个资源上正在运行的作业。方框的长度表示作业执行的时间开销,方框的宽度表示三个资源上的容量大小。如图所示,当前T(1)时刻资源1上有作业1正在运行,资源2上有作业2正在运行,资源3上的作业3刚刚完成。此时,用户提交了新的请求作业4,调度系统需要决定选择三个资源中的一个来完成作业4。
●首先考虑不对作业建模的情况。由于在T(1)时刻,资源3刚刚完成作业3,事实上处于空闲状态。所以按照传统的调度方案,作业4一定会被调度到资源3上来完成。如图所示,由于资源3的容量有限,作业4一直到T(6)才能完成。
●当采用一种足够准确的方法对作业的性能进行建模的时候,调度系统就会预计作业1会在T(2)时刻完成,而作业2会在T(3)时刻完成。基于作业1、作业2和作业3的完成时间,调度系统继而可以对作业4在三个候选资源上的完成时间进行预测。预测的结果是作业4被调度到资源1上将会最早完成,调度到资源2上将会有最小的时间开销。这样的话,对于不同的优化目标,调度器可以将作业4调度到不同的资源上。如果以用户响应速度为优化目标,作业4应该被调度到资源1;如果以时间开销为优化目标,作业4应该被调度到资源2;如果以平衡负载为优化目标,作业4应该被调度到资源3。
作业性能模型是网格资源调度中非常重要的一个环节。不对作业性能进行足够准确的预测,调度器就不能掌握资源负载在未来一段时间的变化。不了解资源负载的变化,调度器就不能为新的作业选择合适的资源。另一方面,资源的异构性使得在网格中对作业进行建模并不是一件容易完成的工作。同一种应用,相同的输入参数和数据,在不同的资源上,将会导致不同的作业性能。现有的建模方案具有如下的一些缺陷:
1)建立的性能模型时静态的,不能动态调整。性能模型被固定为某种类型,如线性模型。
2)需要有关应用计算软件的内部知识,甚至需要对源代码进行分析。建立性能模型需有关程序内部的循环、并行等结构方面的知识,或者使用某种专门的工具对源代码进行分析。而这对于大多数软件来说往往是很难实现的。
3)不能同时适应计算密集型和通信密集型的作业类型,只能分别针对计算密集型和通信密集型进行建模。
4)采用了已经被证明误差较大的技术手段来预测数据传输时间。采用了类似NWS(NetworkWeather Service)等监控工具来预测网络带宽。然而,已有另外的研究证明NWS对于实际文件传输带宽的预测误差是相当大的。
5)在模拟环境中进行评价,将资源的负载设定为固定的状态,没有体现出资源负载的动态变化。
发明内容
本发明的目的在于提供一种能够不依赖于计算软件内部实现,在资源负载实时变化情况下,为计算和通信密集型作业进行性能动态建模的方法。同时,在此建模方法的基础上,提供一种在网格环境下进行资源调度的算法。
为更好地说明本发明的内容,首先定义如下名词和术语:
1)作业。作业(Job)是指计算机系统中为了完成共同的目标,而被操作系统执行的一系列CPU指令。本发明中的作业是指在计算机系统中被启动的一个或几个进程。这些进程之间存在一定的通信或数据传递。
2)作业性能。作业性能指的是作业从开始执行到执行结束时所占用的各种资源。这些资源可能包括:CPU、内存、磁盘、时间。对于用户来说,作业的时间开销是用户最关心的。本专利申请中的作业性能主要是指作业的时间开销,及作业从开始执行到完成所经历的时间。其中也包括了为作业准备输入数据,以及将作业输出数据保存所需要的时间。
3)作业性能模型。作业性能模型是指用来描述作业性能变化规律的一个或几个数学函数。函数的自变量包括如下全部或部分内容:资源软/硬件配置信息,资源动态负载信息,作业请求信息。
本发明的特征在于所述方法是在包括计算机、网络、存储系统在内的作为共享资源的网格节点上按照如下步骤实现的:
步骤(1)初始化
在所述网格节点上设置:基于Web服务资源框架OGSA的CGSP网格软件和CGSV网格软件,其中CGSP网格软件是中国网格ChinaGrid中一个为其他专业网格提供公共支撑平台的中间件,集成了中国教育科研网络CERNET上的各种议购的教育和研究资源;
CGSV网格软件是中国网格ChinaGrid中的对分布式资源进行监控的工具,同时收集和查询包括硬件、系统、网络和所述CGSP网格软件在内的共享资源的动态信息;
历史作业信息库HJIR,存储有当前的N条历史作业信息,其中每一条历史作业信息的记录格式为资源配置信息、资源负载信息、作业请求信息以及作业实际性能信息,每一条所述历史作业信息均由所述CGSP网格软件和CGSV网格软件在内构成,其中:
资源配置信息至少包括各网格节点中的CPU个数、内存容量、最大带宽、操作系统及其版本以及其他软件及其版本,这些都反映了所述网格资源在执行相应作业的软件和硬件的配置信息;
资源负载信息至少包括执行相应作业时网格节点的CPU空闲率、内存空闲率和可用带宽,反映了网格节点在执行相应作业时的负载情况;
作业请求信息至少包括作业请求的应用类型、命令行参数及其符值、输入数据及其大小,反映了历史上的同类作业请求的输入信息;
作业实际性能信息至少包括历史作业执行时间开销以及作业数据传输时间开销,反映了在作业执行完成后,系统收集到的有关作业性能的实际数据;
在所述网格节点上,还设置了利用前N-1个所述历史作业信息库中的记录,建立下述5个候选回归函数的集合:{线形候选回归函数fLinear、高斯候选回归函数fGaussian、倒数多重二次曲面候选回归函数fInverseMultiquadric、多重二次曲面候选回归函数fMultiquadric和多项式候选回归函数fPolynomial};
步骤(2)
所述网格节点依次按如下步骤执行基于历史数据建模的作业性能预测:
步骤(2.1)
用户对所述网格节点输入作业的输入数据,所述作业输入数据是指作业请求信息,其中至少包括:用户名称及编号、作业请求的应用类型、命令行参数及其符值,以及输入数据及其大小;
步骤(2.2)
用户通过所述网格节点的认证后,该网格节点把所述用户输入的作业编号为第N+1个作业;
步骤(2.3)
把历史上N个作业中记录的资源配置信息CN、资源负载信息LN以及作业请求信息RN,代入步骤(1)中所述的5个候选回归函数,得到所述历史上第N个作业的5个性能估计值:PLinear、PGaussian、PInverseMultiquadric、PMultiquadric和PPolynomial;
步骤(2.4)
把步骤(2.3)中所述的5个性能估计值分别与所述第N给作业的真实的作业性能值P进行比较,从中选出差值最小的候选回归函数fN,从而得到了适合该种作业类型应用的作业性能预测函数;
步骤(2.5)
把所述第N+1个作业所记录的资源配置信息CN+1,资源负载信息LN+1以及作业请求信息RN+1带入所述候选回归函数fN计算得到第N+1个作业的性能预测值。
本方法的优点如下:
1)针对网格中资源异构性的特点,将资源容量特征作为性能建模的函数变量。比如,CPU个数及主频、内存容量、网络带宽。
2)针对网格中资源动态性的特点,将资源的动态负载作为性能建模的函数变量。比如,CPU空闲率、内存空闲率、可用带宽。
3)不需要有关程序内部结构和源代码的相关知识。建模方法完全基于历史作业的性能记录。
4)对于数据传输时间的预测,采用了历史记录加权平均的方法来得到。
5)每当一个新的作业完成,将性能记录保存下来。根据新的作业性能记录,可以动态更新作业性能模型。
附图说明
图1:网格中作业调度场景示例图;
图2:网格中作业执行过程描述图;
图3:作业性能建模流程图;
图4:性能建模及调度方案实现系统示意图;
具体实施方式
在给出本发明的主要内容之前,需要首先说明在网格环境中作业执行的过程。图2所示为网格作业执行的过程示意图。从图中可以看出,网格作业的执行过程可以大体分为三个阶段。
1)输入数据准备阶段。作业的输入数据从用户传输到执行作业的资源。这一阶段主要是对网络带宽的占用,对CPU周期的占用量不大。
2)数据处理阶段。主要是对输入数据进行分析处理。这一阶段占用的CPU周期相对比较多,而对网络带宽的占用较少。
3)输出数据取得阶段。作业的输出数据从计算资源传输到用户。与第一阶段类似,主要是对网络带宽的占用,对CPU周期的占用量不大。
基于上述特征,计算网格中作业性能建模方法的发明内容包括:
已知一组作业性能的历史记录,建立关于该种类型应用的作业性能回归函数。假设与当前作业类型相同的历史作业信息库中记录的总数为N,须要预测第N+1个作业的性能。流程图如图3所示。
1)每一个历史作业的性能信息作为一条记录,将它们集合起来构成一个历史作业信息库(HJIR)。每一条记录的格式如下:
<[资源配置信息C],[资源负载信息L],[作业请求信息R],[作业实际性能信息P]>每一条记录包含四部分内容:资源配置信息、资源负载信息、作业信息和作业实际性能信息。
a)资源配置信息主要包括资源在执行该作业时的软/硬件配置信息。比如,CPU个数、内存容量、最大带宽、操作系统及其版本、其他软件及其版本。
b)资源负载信息主要包括资源在执行该作业时的负载情况。比如,CPU空闲率、内存空闲率、可用带宽。
c)作业请求信息主要包括用户提交作业请求的输入信息。比如,请求的应用类型、命令行参数及其赋值、输入数据及其大小。
d)作业实际性能信息主要包括在作业执行完成后,系统收集到的有关作业性能的实际数据。比如,作业输出结果、作业计算时间开销、作业数据传输时间开销。
2)对于5个候选函数模型,利用前N-1个历史作业信息库中的记录,建立相应的5个候选回归函数集合{fLinear、fGaussian、fInverseMultiquadric、fMultiquadric和fPolynomial}。5个候选函数模型为Linear、Gaussian、InverseMultiquadric、Multiquadric和Polynomial。回归函数的表示为:
P=f([资源配置信息C],[资源负载信息L],[作业请求信息R])
其中f依次代入5个候选函数模型。
3)对于上一步中5个刚刚建立的候选回归函数,分别预测第N个记录中的作业性能。将第N个作业记录的资源配置信息C、资源负载信息L和作业请求信息R带入5个候选回归函数,得到第N个作业的5个性能估计值{PLinear、PGaussian、PInverseMultiquadric、PMultiquadric和PPolynomial}。
4)将5个性能估计值与第N个作业的真实的作业性能P进行比较,从5个候选回归函数选出差距最小的候选函数f。选出的函数f就是该种类型应用的作业性能预测函数。
将第N+1个作业记录的资源配置信息C、资源负载信息L和作业请求信息R带入候选回归函数f,计算第N+1个作业的性能预测值。
算法的实现主要基于两个网格软件:CGSP和CGSV。
CGSP是ChinaGrid中为其他专业网格提供公共支撑平台的中间件项目。它可以被用来集成中国教育科研网(CERNET)上的各种异构的教育和研究资源。CGSP不仅支持对异构资源的统一管理,而且提供Portal建设、作业定义和应用打包等功能。当前CGSP的执行管理实现了一个双层的作业调度模型。调度模型的上层是一个作业元调度器,下层是一组作业管理器。根据作业的类型,这些作业管理器可分成四类:遗留程序作业管理器、服务作业管理器、工作流作业管理器和GridPPI作业管理器。每一个作业管理器在元调度器中都对应一个注册项。当有作业需要调度的时候,元调度器从注册项中选择一个合适的管理器,将作业请求分发给它。
CGSV是ChinaGrid中的对分布式资源进行监控的工具。它可以收集和查询硬件、系统、网络和CGSP等的动态信息。用户可以通过图形化的GUI或者Web Services接口访问这些性能数据。CGSV的可扩展性和数据自描述使得它非常适合于对网格环境中动态信息的收集。
系统主要由四个层次组成。图4给出了它的总体架构。
1)系统的第一层是资源监测层。这一层主要包括四种资源状态的监测工具:GridFTP日志监视器、GRS日志监视器、CGSV主机传感器和CGSP传感器。CGSV主机传感器主要负责收集网格计算节点的资源利用率,如CPU空闲率和内存使用率等。CGSP传感器从三个CGSP组件中取得CGSP的作业运行列表、用户列表和应用列表等各种信息。GridFTP日志监视器从各个GridFTP服务器的日志数据中获取文件传输的历史信息。GRS日志监视器从各个计算节点的GRS日志文件中提取已完成的作业的实际时间开销,包括数据传输开销和数据处理开销。
2)资源监测层中的传感器和监视器产生各种资源状态和历史记录信息。它负责将这些生成的信息汇总,交给作业调度层进行分析和决策。需要汇总的信息主要包括两大类:CGSV传感器和日志监测器。CGSV中传感器产生的数据主要通过Target Service进行发布,由Generic Archiver对其进行统一存档。只需要将Target Service系统注册到Registry,就可以通过Proxy Service来对特定的性能数据进行统一访问。对于日志监视器产生的数据,由信息集线器来负责收集。
3)分析决策层是核心功能层。从信息汇总层得到的各种数据在这一层进行分析处理,然后根据分析的结果将作业分配给合适的节点进行计算。这一层进行的数据分析主要是用来在调度前对作业的性能进行预测。预测的方法主要是基于历史作业性能数据建立作业时间开销模型,包括作业输出模型、数据传输时间模型和数据处理时间模型。为了更准确的反映作业的性能,这些模型会根据最新的已完成作业信息动态进行调整。作业模型建立之后,系统将根据资源的当前负载状态,预测作业在候选节点上的时间开销。最后,根据预测结果,选择最优的调度方案交给执行管理层,以便真正的执行一个作业。
4)执行管理层根据分析决策层给出的调度方案,在被选择的计算节点上启动作业的执行。这一部分的功能主要是通过与CGSP的数据管理和作业管理模块交互来完成。以遗留程序作业中的JSDL作业为例。第一步,SSRM作业管理模块将输入数据上传到CGSP数据空间的特定目录。第二步,JSDL作业描述文档被动态生成。这个作业描述文档主要给出了应用的名称、作业的输入参数、作业输入数据在CGSP数据空间中的位置和输出文件将来在数据空间中存放的位置。最重要的是,这个文档中给出了为该作业选择的计算节点。第三步,JSDL描述文档被提交给CGSP的作业管理器。作业管理器将该作业分发给JSDL中指定的计算节点的GRS服务。GRS下载输入、进行计算、上传输出文件。当作业成功完成时,输出文件会被系统的作业管理模块自动下载到本地,方便用户查看。
为了验证作业性能建模的准确性,我们设计了如下实验。100个不同输入序列的Tigr作业被按照随机的时间间隔被分别提交给性能预测建模系统。在对100个作业的依次调度执行的过程中,由于不断有作业执行完成,作业历史记录的规模不断加大。由于被作业建模系统用来建模的作业样本不断增加,作业性能模型将会不断被修整。从图5可以看出,刚开始的作业性能模型作业性能的预测准确度是很差的。随着作业编号的增加,性能模型的预测准确度整体上不断提高。第100个作业的时候,性能预测的误差已经达到了25%左右。
为了验证作业调度的优化效果,我们设计了一个实验与Round Robin方案进行比较。RoundRobin方案不考虑计算节点状态变化,按照作业到达的顺序依次分配下一个可用计算资源。实验中,100个不同输入序列的Tigr作业被按照随机的时间间隔被分别提交给基于性能建模的调度方案和Round Robin方案。当所有作业都执行完成后,系统可以得到两种防按下,这100个作业的分别完成时间开销。通过计算这100个作业在两种方案中的执行时间差,可以对这两种调度方案的作业性能进行比较。图6的横坐标为100个作业的序列号,纵坐标表示的就是100个作业在两种方案中的时间差。可以很明显的看出,对于100个作业中大部分的作业,在Round Robin方案中的时间开销明显大于在SSRM方案中的时间开销。这个结果说明了与Round Robin方案相比较,基于性能建模的方案考虑计算节点的负载状态可以更好的在计算节点之间进行负载均衡。因此,基于性能建模的方案可以减少计算资源负载过大而导致的作业时间开销急剧增加的情况。
需要的硬件环境:CPU1GHz或以上、内存256M或以上。需要的软件环境:支持JDK5.0的操作系统、Java5.0运行时环境。其他软件工具:CGSP2.0、CGSV。
Claims (1)
1.网格中基于历史数据建模的作业性能预测方法,其特征在于所述方法是在包括计算机、网络、存储系统在内的作为共享资源的网格节点上按照如下步骤实现的:
步骤(1)初始化
在所述网格节点上设置:基于Web服务资源框架OGSA的CGSP网格软件和CGSV网格软件,其中CGSP网格软件是中国网格ChinaGrid中一个为其他专业网格提供公共支撑平台的中间件,集成了中国教育科研网络CERNET上的各种议购的教育和研究资源;
CGSV网格软件是中国网格ChinaGrid中的对分布式资源进行监控的工具,同时收集和查询包括硬件、系统、网络和所述CGSP网格软件在内的共享资源的动态信息;
历史作业信息库HJIR,存储有当前的N条历史作业信息,其中每一条历史作业信息的记录格式为资源配置信息、资源负载信息、作业请求信息以及作业实际性能信息,每一条所述历史作业信息均由所述CGSP网格软件和CGSV网格软件在内构成,其中:
资源配置信息至少包括各网格节点中的CPU个数、内存容量、最大带宽、操作系统及其版本以及其他软件及其版本,这些都反映了所述网格资源在执行相应作业的软件和硬件的配置信息;
资源负载信息至少包括执行相应作业时网格节点的CPU空闲率、内存空闲率和可用带宽,反映了网格节点在执行相应作业时的负载情况;
作业请求信息至少包括作业请求的应用类型、命令行参数及其符值、输入数据及其大小,反映了历史上的同类作业请求的输入信息;
作业实际性能信息至少包括历史作业执行时间开销以及作业数据传输时间开销,反映了在作业执行完成后,系统收集到的有关作业性能的实际数据;
在所述网格节点上,还设置了利用前N-1个所述历史作业信息库中的记录,建立下述5个候选回归函数的集合:{线形候选回归函数fLinear、高斯候选回归函数fGaussian、倒数多重二次曲面候选回归函数fInverseMultiquadric、多重二次曲面候选回归函数fMultiquadric和多项式候选回归函数fPolynomial};
步骤(2)
所述网格节点依次按如下步骤执行基于历史数据建模的作业性能预测:
步骤(2.1)
用户对所述网格节点输入作业的输入数据,所述作业输入数据是指作业请求信息,其中至少包括:用户名称及编号、作业请求的应用类型、命令行参数及其符值,以及输入数据及其大小;
步骤(2.2)
用户通过所述网格节点的认证后,该网格节点把所述用户输入的作业编号为第N+1个作业;
步骤(2.3)
把历史上N个作业中记录的资源配置信息CN、资源负载信息LN以及作业请求信息RN,代入步骤(1)中所述的5个候选回归函数,得到所述历史上第N个作业的5个性能估计值:PLinear、PGaussian、PInverseMultiquadric、PMultiquadric和PPolynomial;
步骤(2.4)
把步骤(2.3)中所述的5个性能估计值分别与所述第N给作业的真实的作业性能值P进行比较,从中选出差值最小的候选回归函数fN,从而得到了适合该种作业类型应用的作业性能预测函数;
步骤(2.5)
把所述第N+1个作业所记录的资源配置信息CN+1,资源负载信息LN+1以及作业请求信息RN+1带入所述候选回归函数fN计算得到第N+1个作业的性能预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910236533A CN101697141B (zh) | 2009-10-30 | 2009-10-30 | 网格中基于历史数据建模的作业性能预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910236533A CN101697141B (zh) | 2009-10-30 | 2009-10-30 | 网格中基于历史数据建模的作业性能预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101697141A true CN101697141A (zh) | 2010-04-21 |
CN101697141B CN101697141B (zh) | 2012-09-05 |
Family
ID=42142246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910236533A Expired - Fee Related CN101697141B (zh) | 2009-10-30 | 2009-10-30 | 网格中基于历史数据建模的作业性能预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101697141B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135914A (zh) * | 2011-04-02 | 2011-07-27 | 北京大学 | 一种可自动调节参数的云计算系统负载预测方法 |
CN102831012A (zh) * | 2011-06-16 | 2012-12-19 | 日立(中国)研究开发有限公司 | 多节点分布式系统中的任务调度装置和任务调度方法 |
CN103430151A (zh) * | 2012-07-06 | 2013-12-04 | 华为终端有限公司 | 一种资源配置方法及装置 |
CN103927228A (zh) * | 2013-01-15 | 2014-07-16 | 株式会社日立制作所 | 作业执行预测方法和设备 |
CN104391749A (zh) * | 2014-11-26 | 2015-03-04 | 北京奇艺世纪科技有限公司 | 一种资源分配方法及装置 |
WO2015058578A1 (zh) * | 2013-10-21 | 2015-04-30 | 华为技术有限公司 | 一种分布式计算框架参数优化方法、装置及系统 |
CN105511957A (zh) * | 2014-09-25 | 2016-04-20 | 国际商业机器公司 | 用于生成作业告警的方法和系统 |
CN107210852A (zh) * | 2015-01-28 | 2017-09-26 | 阿尔卡特朗讯 | 通过预测平滑的传输块大小来控制应用的操作的系统和方法 |
CN108319595A (zh) * | 2017-01-16 | 2018-07-24 | 北京金山云网络技术有限公司 | 一种应用程序数据分析方法及装置 |
CN108536528A (zh) * | 2018-03-23 | 2018-09-14 | 湖南大学 | 应用感知的大规模网格作业调度方法 |
CN108647137A (zh) * | 2018-05-10 | 2018-10-12 | 华东师范大学 | 一种作业性能预测方法、装置、介质、设备及系统 |
CN109542603A (zh) * | 2018-11-22 | 2019-03-29 | 北京航空航天大学 | 一种提高不同优先级任务间隔离性的多维资源隔离系统 |
CN109636212A (zh) * | 2018-12-19 | 2019-04-16 | 中国科学技术大学 | 作业实际运行时间的预测方法 |
CN110519317A (zh) * | 2018-05-21 | 2019-11-29 | 华为技术有限公司 | 一种数据传输方法以及设备 |
CN110546612A (zh) * | 2017-04-28 | 2019-12-06 | 华为技术有限公司 | 导向型优化资源调度 |
CN110928659A (zh) * | 2019-11-20 | 2020-03-27 | 哈尔滨工程大学 | 一种具有自适应功能的数值水池系统远程多平台接入方法 |
CN111461867A (zh) * | 2020-04-01 | 2020-07-28 | 中国银行股份有限公司 | 批量作业模拟运行模型建立方法及装置 |
CN112306383A (zh) * | 2019-08-02 | 2021-02-02 | 华为技术有限公司 | 执行作业的方法、计算节点、管理节点及计算设备 |
WO2023273502A1 (zh) * | 2021-06-30 | 2023-01-05 | 华为技术有限公司 | 作业处理的方法、装置、计算机设备以及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608781B (zh) * | 2016-07-11 | 2021-06-22 | 华为技术有限公司 | 一种负载预测方法、装置以及网元 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101013386A (zh) * | 2007-02-06 | 2007-08-08 | 华中科技大学 | 基于反馈机制的网格任务调度方法 |
CN100544296C (zh) * | 2007-03-29 | 2009-09-23 | 王忠伟 | 一种基于互联网的远程监控系统及监控方法 |
-
2009
- 2009-10-30 CN CN200910236533A patent/CN101697141B/zh not_active Expired - Fee Related
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135914A (zh) * | 2011-04-02 | 2011-07-27 | 北京大学 | 一种可自动调节参数的云计算系统负载预测方法 |
CN102831012A (zh) * | 2011-06-16 | 2012-12-19 | 日立(中国)研究开发有限公司 | 多节点分布式系统中的任务调度装置和任务调度方法 |
CN103430151B (zh) * | 2012-07-06 | 2016-11-16 | 华为终端有限公司 | 一种资源配置方法及装置 |
CN103430151A (zh) * | 2012-07-06 | 2013-12-04 | 华为终端有限公司 | 一种资源配置方法及装置 |
CN103927228A (zh) * | 2013-01-15 | 2014-07-16 | 株式会社日立制作所 | 作业执行预测方法和设备 |
WO2015058578A1 (zh) * | 2013-10-21 | 2015-04-30 | 华为技术有限公司 | 一种分布式计算框架参数优化方法、装置及系统 |
CN103605662B (zh) * | 2013-10-21 | 2017-02-22 | 华为技术有限公司 | 一种分布式计算框架参数优化方法、装置及系统 |
CN105511957B (zh) * | 2014-09-25 | 2019-05-07 | 国际商业机器公司 | 用于生成作业告警的方法和系统 |
US10705935B2 (en) | 2014-09-25 | 2020-07-07 | International Business Machines Corporation | Generating job alert |
CN105511957A (zh) * | 2014-09-25 | 2016-04-20 | 国际商业机器公司 | 用于生成作业告警的方法和系统 |
CN104391749A (zh) * | 2014-11-26 | 2015-03-04 | 北京奇艺世纪科技有限公司 | 一种资源分配方法及装置 |
CN107210852A (zh) * | 2015-01-28 | 2017-09-26 | 阿尔卡特朗讯 | 通过预测平滑的传输块大小来控制应用的操作的系统和方法 |
CN107210852B (zh) * | 2015-01-28 | 2020-04-07 | 阿尔卡特朗讯 | 通过预测平滑的传输块大小来控制应用的操作的系统和方法 |
CN108319595A (zh) * | 2017-01-16 | 2018-07-24 | 北京金山云网络技术有限公司 | 一种应用程序数据分析方法及装置 |
CN110546612A (zh) * | 2017-04-28 | 2019-12-06 | 华为技术有限公司 | 导向型优化资源调度 |
CN108536528A (zh) * | 2018-03-23 | 2018-09-14 | 湖南大学 | 应用感知的大规模网格作业调度方法 |
CN108647137B (zh) * | 2018-05-10 | 2020-12-22 | 华东师范大学 | 一种作业性能预测方法、装置、介质、设备及系统 |
CN108647137A (zh) * | 2018-05-10 | 2018-10-12 | 华东师范大学 | 一种作业性能预测方法、装置、介质、设备及系统 |
CN110519317A (zh) * | 2018-05-21 | 2019-11-29 | 华为技术有限公司 | 一种数据传输方法以及设备 |
CN110519317B (zh) * | 2018-05-21 | 2021-02-12 | 华为技术有限公司 | 一种数据传输方法以及设备 |
CN109542603A (zh) * | 2018-11-22 | 2019-03-29 | 北京航空航天大学 | 一种提高不同优先级任务间隔离性的多维资源隔离系统 |
CN109542603B (zh) * | 2018-11-22 | 2023-11-03 | 北京航空航天大学 | 一种提高不同优先级任务间隔离性的多维资源隔离系统 |
CN109636212A (zh) * | 2018-12-19 | 2019-04-16 | 中国科学技术大学 | 作业实际运行时间的预测方法 |
CN112306383A (zh) * | 2019-08-02 | 2021-02-02 | 华为技术有限公司 | 执行作业的方法、计算节点、管理节点及计算设备 |
CN110928659B (zh) * | 2019-11-20 | 2022-12-06 | 哈尔滨工程大学 | 一种具有自适应功能的数值水池系统远程多平台接入方法 |
CN110928659A (zh) * | 2019-11-20 | 2020-03-27 | 哈尔滨工程大学 | 一种具有自适应功能的数值水池系统远程多平台接入方法 |
CN111461867A (zh) * | 2020-04-01 | 2020-07-28 | 中国银行股份有限公司 | 批量作业模拟运行模型建立方法及装置 |
WO2023273502A1 (zh) * | 2021-06-30 | 2023-01-05 | 华为技术有限公司 | 作业处理的方法、装置、计算机设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101697141B (zh) | 2012-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101697141B (zh) | 网格中基于历史数据建模的作业性能预测方法 | |
CN110737529B (zh) | 一种面向短时多变大数据作业集群调度自适应性配置方法 | |
Hung et al. | Wide-area analytics with multiple resources | |
US20200034745A1 (en) | Time series analysis and forecasting using a distributed tournament selection process | |
CN101946258B (zh) | 基于计算机的业务过程在专用硬件上的基于模型的部署 | |
Masdari et al. | Efficient task and workflow scheduling in inter-cloud environments: challenges and opportunities | |
Zhang et al. | Automated profiling and resource management of pig programs for meeting service level objectives | |
CN107404523A (zh) | 云平台自适应资源调度系统和方法 | |
Spooner et al. | Performance-aware workflow management for Grid computing | |
CN109643251A (zh) | 基于计算系统中的利用模式的资源过度订阅 | |
CN104243617B (zh) | 一种异构集群中面向混合负载的任务调度方法及系统 | |
Li et al. | An integrated approach to automatic management of virtualized resources in cloud environments | |
CN105786681B (zh) | 数据中心的服务器性能评估及服务器更新方法 | |
Zhang et al. | MrHeter: improving MapReduce performance in heterogeneous environments | |
CN103713935B (zh) | 一种在线管理Hadoop集群资源的方法和装置 | |
Zhu et al. | A priority-aware scheduling framework for heterogeneous workloads in container-based cloud | |
US20210263718A1 (en) | Generating predictive metrics for virtualized deployments | |
CN118118486A (zh) | 一种智能化SaaS云计算交易平台系统 | |
Liu et al. | Predicting the performance of middleware-based applications at the design level | |
Zhang et al. | Performance modeling and optimization of deadline-driven Pig programs | |
CN117290102A (zh) | 跨域异构资源的调度方法及装置 | |
Toffetti et al. | Engineering autonomic controllers for virtualized web applications | |
Hwang et al. | Cloud transformation analytics services: a case study of cloud fitness validation for server migration | |
Karimian-Aliabadi et al. | Scalable performance modeling and evaluation of MapReduce applications | |
Goli et al. | Autonomic coordination of skeleton-based applications over CPU/GPU multi-core architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120905 Termination date: 20181030 |