CN1946037A - 管理网格计算环境的方法和系统 - Google Patents

管理网格计算环境的方法和系统 Download PDF

Info

Publication number
CN1946037A
CN1946037A CN200610141341.6A CN200610141341A CN1946037A CN 1946037 A CN1946037 A CN 1946037A CN 200610141341 A CN200610141341 A CN 200610141341A CN 1946037 A CN1946037 A CN 1946037A
Authority
CN
China
Prior art keywords
data
grid
performance
environment
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200610141341.6A
Other languages
English (en)
Inventor
詹姆斯·W.·斯曼
里克·A.·哈密尔顿二世
约史·约瑟夫
克里斯托弗·J.·道森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1946037A publication Critical patent/CN1946037A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5032Generating service level reports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

从网格计算环境中的若干资源和若干资源组定期地捕获性能数据并存储在内容可寻址的数据知识库中,从数据知识库可以访问数据,以响应关于特定作业或作业部分、所采用的具体资源、网格架构、应用环境、并发作业或作业部分等的特征的具有任意复杂度的查询。数据知识库可以关于网格环境架构、安全域等分布或划分,每个部分或分支都能够以模块方式实施,包括记帐和统计管理模块以及其他模块或计算引擎,以便执行具体的期望分析或功能。这样的分析或功能的结果可以传送到网格工作负荷代理(以及相关联的模块),以基于细粒度改进网格管理。

Description

管理网格计算环境的方法和系统
技术领域
一般说来,本发明涉及网格计算环境,更具体地说,涉及网格资源使用中基于性能的管理,以便对网格计算环境中可用的资源进行高效使用和高效性能预测。
背景技术
为了通信或为了共享一个数据处理器上可能有而另一个处理器上可能没有的资源,在数据处理器之间提供通信链接众所周知。在后一种情况下,具有所述资源的数据处理器通常被称为服务器,而请求所述资源的数据处理器通常被称为客户机。在网络式布局中,比在如局域网(LAN)、广域网(WAN)、其他网络内的虚拟网络、因特网等中可以在许多这样的数据处理器之间提供连接。
随着资源共享变得更加广泛和复杂,在远离给定数据处理器的位置执行某种数据处理(可能在某种程度上涉及所请求的资源)变得常见。以这种方式在可以响应时间和处理器使用方面实现某些效率和改进,尽管潜在的收益难以预测或量化估计。已经证明在许多情况下,与在单个数据处理器上获得提高的计算能力(比如已经产生的所谓的超级计算机)会导致成本增加相比,通过将数据处理分布在多个相连的数据处理器获得提高的计算能力通常好处更多。另外,在远程数据处理持续地变得更加常见的环境中,服务器系统的规模、速度和计算能力正在持续地提高,并且已经开发出了组合服务器的多种方法,比如集群、多服务器共享数据(sysplex)和网格环境以及企业系统。在服务器集群或其他布局中,典型情况下一台服务器被指定为管理数目日增的入站请求,而其他服务器则并行地运行以处理来自客户机的相应请求的各个分布的部分。典型情况下,服务器和服务器组运行在具体平台上,比如UNIXTM或其某种版本,以提供运行应用程序的分布式主机环境。每个网络平台都可以提供多种功能以及不同的实施方案、语义行为和应用程序编程接口(API)。
不过,仅仅互连数据处理器并不能确保效率或响应速度提高,而且这样做时即使在最佳的情况下其能力也是有限的。通过将服务器和服务器组组织为分布式资源,已经实现了某种附加的效率和响应速度收益,其中假定不同的资源尽管对于应对安全性、成员资格等具有相似功能,也可以不受制于同一管理系统,所以服务器之间的协作、数据共享、周期共享和其他交互模式可以增加至可能的程度。例如,典型情况下桌面个人计算机上的可用资源不与该个人计算机可能与其联网的公司的被管理服务器集群受制于同一管理系统。同样,公司之内的不同管理组可能具有实施不同管理系统的服务器组。
可能具有不同安全性策略且运行在不同平台上的独立管理系统引起的问题已经导致开发所谓的网格技术,即,使用开放标准运行网格环境以支持最大化的共享和协调使用异种的分布式资源。当来自不同的可能为分布式的系统和管理系统的资源选择被组织起来以应对作业请求时,便在网格环境内创建了虚拟组织,所述不同的可能为分布式的系统由不同的组织以不同的安全和访问策略运行。
不过,网格技术并没有解决具有不同管理系统和不同标准的资源组之间的全部通信问题。例如,当前布置为监控每个系统组性能的工具和系统限定为它们按照具体资源的硬件类型分组资源并在硬件级别监控性能。同时,作为以这种方式分组资源的结果,这样的监控工具和系统也限定为使用在硬件资源上实施的协议,因此典型情况下并不支持不同组和/或不同管理系统的监控工具和系统之间的直接通信。所以不易均匀地在任何给定时间监控网格活动(尽管在已转让给本发明的受让人并且全部内容在此引用作为参考的美国专利申请(代理机构卷号AUS920040501US1)中提供了解决方案,它使用网格工作负荷代理按照指定的或自适应产生的监控规则查询若干网格模块,以维持和填充网格活动数据库,从该数据库中向不同模块提供数据以执行网格控制功能),更不易分配数据处理作业的若干部分以及支持其它必要的商业网格计算操作活动,比如定价、硬件和软件需求决策的优化、增强招标(RFP)处理的准确度和性能(如,改进运行时间估计例如引起服务等级协议的履行和满意度的改进)、根据先前的性能统计和当前的性能估计通过改进资源分配的效率而提高网格内处理的效率或者支持网格元素的财务分析或计算行业趋势。目前还不存在为了这些目的且能够解决按需网格计算环境需求的稳健工业工具。
相反,以业内目前的状态,管理网格计算所使用的方法与管理单个组织计算环境中使用的方法几乎相同。换言之,管理和信息技术(IT)人员通常讨论潜在入站作业,并基于根据其积累的经验(可能相当不稳定且往往没有经验数据)得出的最佳估计,制定计算资源需求和相关联的成本(通常为固定的小时成本,因为以更加确定的准确度支持更大颗粒或更加特定价格模型的机制不存在)。虽然在网格上可以采集性能数据,但是在缺少来自多个相关作业或具有能够与其他作业相关的类似特征的作业的用于进行评价的作业数据时,这样的性能数据对于产生准确的作业运行时间和价格估计结果并没有特别的帮助。
例如,在传统的计算环境中,单一应用程序,比如DB2TM,可能在特定的节点或节点组上运行。性能监控器可以定期从这样的节点采样数据并确定比如高峰工作负荷趋势的事实。然而在网格环境中,节点可能运行着几个不同的应用程序,在任何给定的时间阶段每个都处理一个或多个作业的一个或多个部分,如果没有将网格作为整体考虑的更为全面的数据,关于任何给定节点的硬件的简单原始性能数据对于具有具体特征的特定作业是毫无意义的,即使可以对多个节点采集性能数据,也无法与被评价的入站作业相关,因为对于任何给定时间阶段,每个节点的性能都可能与每个节点的硬件上正在执行的具有不同需求和特征的多个作业有关。
按需计算的动态情况也使问题复杂化。传统的和当前已有的性能数据采集工具能够做的往往比趋势推导强不了多少,以致可以根据趋势分析结果平衡工作负荷。例如,在客户机的DB2数据库(服务器)节点在一个定期重复时间阶段正在持续超载而在另一个时间阶段持续欠载的情况下,某些批处理作业可以从前一个时间阶段移至后一个时间阶段。可以看出,这种监控和平衡方式针对的是在应用程序在其中执行的所分配静态资源上平衡应用程序性能。然而对于按需计算,这种监控和平衡方式却不够,因为按需计算的动态性质认识到在任何给定时间在任何给定网格节点上可能正在运行着多种多样的作业和应用程序。换言之,在按需网格环境中在一个具体时刻参与基于AIXTM的DB2数据库作业会话的网格节点可以紧跟着执行LINUXTM的编译器作业。给出了网格环境内发生在资源使用中的这种根本性变化的可能性,传统的工具和平衡分析方式对于具有潜在相关作业特征的作业是不够的,并无法采集性能数据,更无法进行相关和分析。
在可能包括多种资源的网格中,问题更加复杂,这些资源能够执行给定作业的给定部分,但是在给定时刻可能不可用而且在可用时可能展示出对于给定作业的给定部分不同的性能。例如,给定作业的给定部分可以运行在运行着DB2的AIXTM或LINUXTM上,但是当前的性能监控工具却无法揭示该作业的该部分在LINUXTM节点组中历史上曾经比在AIXTM节点组中执行得更快、成本更低(或者相反),因此假定在给定执行时间可能没有效率更高的LINUXTM(或AIXTM)资源可用于请求的作业或RFP的响应,那么除了通过以上提到的管理和IT人员的专门技能或直觉(它们不能提供准确确定价格等的机制)以外,对于类似作业性能监控工具无法使资源选择倾向网格内的LINUXTM(或AIXTM)资源。
总之,如果对于给定作业的具体部分可能有两种或更多不同的资源可用,有利的当然是能够将作业的一部分分配给能够最高效地执行它的资源,并估计该资源处理该作业或作业部分会花的时间。不过,预计最高效资源可用性的概率或者提供关于具有具体特征的作业部分在运行时实际可用的任何资源相对可能效率的有关信息,以业内的当前状态还没有工具可用。换言之,以业内的当前状态,性能数据即使可采集也是指具体的硬件资源,它们可以反映具有不同特征的多个作业部分的集合性能,因此掩盖了各个作业部分的性能数据。
发明内容
所以,本发明的一个目的是提供综合性的系统和方法,用于监控、评价、存档和公布有关网格模块的全面历史统计数据,能够提高对计算网格整体及其可用资源的管理的准确度和效率。
本发明的另一个目的是提供一种工具,用于采集和相关来自网格计算环境中若干节点的作业性能数据,以支持资源使用的平衡,以及预期的准确的估计、评估和分析,能够根据具有某些类似特征或需求的不同作业的历史数据为每个单独提交的应用程序或作业选择最高效的网格资源。
本发明的进一步目的是提供数据采集、存储和检索,以支持优化入站作业成本推导或估计、优化入站网格作业所用硬件和软件平台需求决策、提高网格RFP生成的性能和准确度、通过统计学习改进网格内效率、为网格元素的财务分析提供平台以及为计算行业趋势分析提供平台。
本发明的再一个目的是为执行以上功能提供并支持网格模块。
为了实现本发明的这些和其他目的,提供了一种管理网格计算环境的方法,包括以下步骤:使用所述网格计算环境的相应资源执行数据处理请求的若干部分;定期存储与相应资源的性能和来自执行所述数据处理请求的若干部分的相应资源的作业部分的特征对应的数据记录;按照其中存储的数据检索选定的数据记录;以及处理所检索的数据以产生处理的性能数据作为历史性能统计数据。
根据本发明的另一个方面,提供了一种管理网格计算环境的系统,包括监控处理数据处理请求若干部分的网格计算环境中相应资源的布局;定期存储来自相应的所监控资源的性能数据的内容可寻址存储器,所述数据包括识别对应的所监控相应资源和所述作业部分特征的数据;根据这样的特征检索数据并处理所述数据以形成处理的性能数据的布局;以及优选情况下为了根据所述处理的性能数据管理所述网格计算环境而实施为若干模块的布局。
附图说明
参考附图根据本发明优选实施例的以下详细说明将会更好地理解以上的和其他的目的、方面和优点,其中:
图1是根据本发明报告性能的网格系统架构的概述框图;
图1A展示了图1的网格管理系统内网格工作负荷与多个网格模块之间的交互;
图1B展示了根据本发明的会计和统计管理模块与多个会计和统计模块的交互以及通过图1A的工作负荷代理和与其相关联模块的交互;
图2为类似流程图的框图,展示了本发明的操作,包括与提供分析工具等的各种模块的交互;
图3展示了根据本发明对于性能数据不同深度的作业示范部分的分析操作。
具体实施方式
现在参考附图,更确切地说是参考图1,其中显示了根据本发明的网格环境以及会计和统计管理系统100的整体系统架构的框图。本领域的技术人员将认识到,图1、图1A和图1B的若干部分分别与以上引用的美国专利申请的图2和图5的基本类似,这些附图的对比将有助于理解本发明提供的其他工具和功能以及对以上引用之申请的发明功能的改进。更确切地说,正如以上引用的美国专利申请中的详细介绍,网格环境110包括网格管理系统120和虚拟资源130。不过,本发明的网格管理系统120借助于包括会计和统计管理系统来提供基本的附加功能,正如下面将要更加详细的介绍。换言之,优选情况下包括本发明的任何网格环境也都能够提供以上引用的美国专利申请的至少某些功能;这些功能可以通过包括本发明而有本质的改进。
客户机系统10通过网络或其他布局可以访问所述网格环境,其细节对于实施本发明并不重要。从客户机系统10进行的通信被描述为与网格管理系统120的通信,后者将管理处理器和应用程序140的分配,而处理器和应用程序140又将利用多种可访问的资源150,并管理对查询的响应以及响应客户机系统请求的其他功能。
除了以上引用的美国专利申请中详细介绍的网格环境110,本发明还提供从多种资源150向数据仓库160的性能报告,所述数据仓库160可以是单个的性能数据知识库,也可以被划分和/或分布为使本发明的具体应用最佳地适应给定的网格环境。实施时可以利用任何公知的网络通信技术,比如所谓的“中间件”,而本发明的成功实践并不依赖于其中的任何特定内容。数据仓库的实施方案对本发明的实践同样不是关键的,只不过应当提供存储器170a、170b的某种类型的内容可寻址性,以便可以根据记录中包含的任何具体数据访问这些记录,以便提供查询的最大灵活性,例如入站作业部分与先前运行过或当前正在运行作业部分的最佳匹配。如果数据仓库是分开的或分布式的,优选情况下实施为模块的数据仓库部分(它们可能不包含相同的(如复制的)分析过程和算法180a、180b)应当允许交互,以便能够实现全部或至少最大可能的查询,这些对于特定的应用程序和资源的关于任何和全部资源的性能的查询可以具有任意复杂度。如果提供了数据仓库的划分和分布,被视为优选的情况是,根据网格如何在多个安全域上散布来进行这种划分和分布。
正如同时在以上引用的申请中详细介绍的以及在图1A(对应于其图5)中所展示的,网格管理系统120包括一个或多个工作负荷代理125,优选情况下实施为模块而且它们与其他模块通信以执行多种所需的功能,比如资源分配、网格的管理以及关于商业上可用的网格服务的定价、销售和记帐。图1A示意地展示了执行优选功能的示范模块的一般架构,其若干部分在一份或多份以下文献中详细讨论:美国专利申请11/031,489,2005年1月6日提交(IBM案卷号AUS920040568US1),11/031,543,2005年1月6日提交(IBM案卷号AUS920040567US1),10/940,452,2004年9月14日提交(IBM案卷号END920040039US1),11/031,490,2005年1月6日提交(IBM案卷号AUS920040501US1)和10/870,522,2004年6月17日提交(IBM案卷号AUS920040044US1),其全部内容也在此引用作为参考。
更一般地说,模块或子系统是网格管理系统中的架构部件,执行网格环境中的特定功能,比如工作负荷管理、软件/硬件目录管理、会计/记帐、定价计算、折扣管理等。例如,定价计算模块确定在特定资源中在网格基础设施或环境内执行作业或作业部分的价格。每个模块或子系统都执行某种方法或算法,以提供预定的功能,并在很大程度上可以被视为具有执行该功能的“引擎”的性质,优选情况下实施为软件“对象”(在面向对象编程的意义上),但是也可以是硬件形式的专用处理器或者硬件和软件的组合。
如图1B所示,优选情况下本发明也实施为模块或子系统,被安排为关于特定资源的特定作业或作业部分的性能执行记帐、统计和历史趋势管理,所述记帐、统计和历史趋势管理与用于资源使用的资源分配和记账截然不同,尽管后面的功能可以通过本发明的实施而在本质上优化。更确切地说,在数据仓库160内提供了记帐、统计和历史趋势管理子系统180,优选情况下为以上定义的模块。记帐和统计管理模块180管理从单个或成组网格资源150进行的性能数据采集以便存储,正如以上的讨论,并且在从海量存储器170向多个网格过程和算法185中的每一个二者之间的通信中管理数据传递。另外,记帐和统计管理模块180独自地或者优选情况下与网格工作负荷代理125协作,来管理每个模块185的处理结果到以上讨论的与网格工作负荷代理125相关联的网格管理系统模块的通信,如包括虚线部分的图1和图1B中190所示意性画出的。这些通信的路由对本发明的实践并不是关键的,不过优选情况下,最好通过管理数据分布的网格工作负荷代理进行路由。
与记帐和统计管理模块180相关联的模块185执行的具体过程和算法及其细节对本发明的实践并不是关键的,不过优选情况下某些将被选为对与网格工作负荷代理125相关联的模块进行补充,并提供一种机制,以便以区别于操作共同反映在一组资源(或者与一般资源组可能无法区分的一组资源的部分)上执行的一组作业或作业部分的数据的方式,传递处理的数据,所述处理的数据是在特定作业部分和特定资源的细粒度级别获得的,正如以上引用的申请中的公开内容。例如,由成本估计、硬件/软件需求和网格内处理模块处理的性能数据能够提供细粒度数据的分析,它们确实能够细化网格管理系统120中网格资源分配、网格管理器、网格定价、作业运行时间估计和网格折扣模块的性能,而且正如以上讨论,趋势分析模块也可以通过响应更精密地定义从而更确切地与作业部分匹配的查询,提供细粒度数据,增强网格资源分配和工作负荷平衡,而其他模块比如RFP生成处理可以配备专用功能,网格元素财务分析可以有助于能力管理,其输入包括资源增加和/或升级效果的确定或预测。
现在将参考图2,讨论本发明所执行操作的关系。应当理解,图2的本意并非成为流程图,即使其中可能包括流程图的某些方面。通过所展示操作的几条路径可以基本上以并行和递归的方式执行,以确保性能数据得到采集、存储和检索,至少支持以下优选的高级功能(对应于图1B所示的模块):
1.)细化入站作业成本推导或估计;
2.)细化入站网格作业的硬件和软件平台需求决策;
3.)提高网格RFP处理的性能和准确度;
4.)通过统计学习改进网格内处理;
5.)为网格元素的财务分析提供平台;以及
6.)为计算行业趋势分析提供平台。
本发明操作的优选模式下执行的初始操作是,网格管理系统120询问网格的处理器和应用程序(如各个应用程序环境连同其相应的连接的资源)140,以确定当前执行的和所调度的作业,如202所示。为了确保能够恰当地应对进行中的网格管理,使得性能数据将不至于被低效的网格管理所歪曲,并且将识别和采集连续地从网格变为可用的所需性能数据,这个步骤很重要。一旦识别了当前执行的和所调度的作业及其相应部分,就定期提取和存储各个应用程序环境140当前瞬时操作的性能“快照”,如204所示。这个步骤与步骤226交互,在作业结束时或预定数目的快照后存档快照数据,并且与步骤222交互,实时或定期地将数据转发到同一网格或者一个或多个其他网格的其他相关管理子系统。
不过,由于大多数以上列举的示范高级功能主要涉及入站作业网格操作效果和/或当前网格状态对作业将如何执行的效果的预测,以及作业将花费多长时间的估计,所以根据本发明性能数据采集过程继续输入并安排新的入站网格计算作业,如206所示,随后网格管理系统通知工作负荷代理125已经发生了更新,如208所示。作为响应,工作负荷代理以及/或者记帐和统计管理模块180采集作业性能数据,该数据对应于入站作业对应部分的特征或特征组合,如210所示。
然后确定新的或入站作业或其部分是否为应用程序特定的,如212所示。如果是,就询问执行作业或其对应部分的适当应用程序环境140或者读取当前的快照,以便得到当前的工作负荷统计结果,如216所示。否则,通常就对组成网格环境的全部应用程序环境140执行本质上相同的操作。无论在哪种情况下,都执行预测分析218,以估计作业提交对网格的影响,并且产生和报告预测性能数据和相关联的时间线(220),方式为向其他相连的网格管理子系统或模块发送(222)和存储(224),一旦预测数据经过确定和定量化,便能将预测数据与实际的作业影响对比,以便支持作业影响预测的细化,或者反过来预测作业运行时间能够在给定历史性能统计结果之内执行的可能性,尤其是连同网格架构和其他可能的并发网格处理。在作业完成时或以定期的方式,在226再次存档预测结果数据,同时在204采集当前的实际性能数据并存档,正如以上的介绍。
以上介绍的步骤222以基本上实时方式向相关子系统提供了预测数据和在204采集的数据,如230所示。这些子系统也可以访问由226产生的存档的数据。这些子系统或模块进行相应类型的分析和控制功能,包括但是不限于资源分配、网格管理、网格处理折扣确定和空闲资源时间的廉价出售以及定价分析和确定。就其中配备的数据仓库160和内容可寻址存储器能够执行的具体分析而言,可以使这些功能非常灵活,以响应可以非常灵活地定义的和具有任意复杂度的查询,以根据任何其它性能数据或参数或者其逻辑(如布尔)组合而检索任何性能数据或参数,正如以上所提到的。
现在参考图3,其中描述了具有增加的查询深度的改进的性能预测。在这种情况下,对数据行或线计数所花费的时间被视为性能指标。对来自不同作业和可能不同应用环境的两个性能数据采样的低查询深度,计数4000行的最终预测花费45秒,或者说对小范围外推为计数每行1.125毫秒。不过,利用六种历史性能统计数据,能够以更高的准确度和置信度进行即使更大范围外推。如果这样的分析包括例如按具体平台分类,对给定作业部分也能够容易地确定效率最高的平台。同样,在或是特定的或是如同历史的并发网格处理和/或网格架构环境之内,给定作业或作业部分运行时间能够在给定历史性能统计结果之内完成的可能性,即使普通的查询深度也能够提供预测这种可能性的基础。能够进行如以上讨论的灵活的、任意复杂度的查询也使得任何入站作业都能够被快速分析,并且(以任意精细颗粒度)进行的每部分的性能估计可以与先前从过去作业收集的数据进行匹配,尤其是用于改进作业定价的准确度、RFP创建、改进效率最高的可用资源的选择以及估计所请求作业的所需网格资源量。
应该理解,对于特定的性能标准比如在图3的简单实例中,查询深度将可能非常快速地增加。例如应当注意,图3的大查询深度列的前两个条目与小查询深度列仅有的两个条目相同。也应当注意,这两个条目显示了显著慢于从高深度数据条目估计的性能时间的性能,以及对于更大数目的行扫描趋向更长的时间。所以,即使以大查询深度这些数据条目也可能在某种程度上歪曲性能估计结果。同时假设为了这个实例的目的,查询仅仅用于涉及DB2行扫描时间总计的全部性能数据。
不过,根据附加标准和每个作业的特征采集性能数据允许执行高度特定的和具有任意复杂度的查询,而且入站作业任意小的部分的特征和硬件/软件需求能够与采集的实际性能数据非常接近地匹配,这可能会使所述前两个条目的任一个或二者在更复杂和详细的查询中被抛弃,而仍然保持着基本的查询深度,不过累积由更详细和复杂的查询获得的数据要相对更慢。不过,入站作业部分与先前执行作业部分的特征匹配接近程度的改进明显地使作业性能预测的准确度提高,并使置信度水平提高,即使在必须进行大范围外推时也不例外,同时预测处理中所考虑的数据量减少,使得响应时间缩短,同时允许对比关于使用不同资源处理的分析结果,使得能够更加有效地分配资源并定价,以便以改进的置信度和对运行时不测事件进行调节而保持利润率。
所以考虑到以上介绍,可见本发明提供了综合性的系统和方法,用于监控、存档和公布有关网格模块的全面统计数据,支持具有改进效率的网格管理。本发明也提供了一种工具,用于采集和任意相关与网格环境中相应节点执行的各个作业部分对应的作业性能统计数据,以根据历史数据,尤其是关于入站作业对网格活动和性能的影响、RFP和资源使用、网格元素的财务分析、趋势分析等等,更加准确和有效地支持特定资源需求的平衡并对资源进行高效分配。
虽然介绍本发明时依据单个的优选实施例,但是本领域的技术人员将会理解,在附带的权利要求书的实质和范围之内,本发明能够有修改地实施。

Claims (16)

1.一种管理网格计算环境的方法,包括下列步骤:
使用所述网格计算环境的相应资源执行数据处理请求的若干部分;
定期存储来自执行所述数据处理请求的所述若干部分的相应资源的数据记录,所述数据记录对应于所述相应资源中相应者的性能和所述作业部分的特征;
按照所述数据记录中存储的数据检索选定的数据记录;以及
处理所述检索步骤中检索的数据以产生处理的性能数据作为历史性能统计数据。
2.根据权利要求1的方法,进一步包括根据所述处理的性能数据管理作业部分分配的步骤。
3.根据权利要求1的方法,进一步包括根据历史性能分析估计作业在网格上运行时间的步骤。
4.根据权利要求1的方法,进一步包括根据历史性能分析产生投标请求的步骤。
5.根据权利要求3的方法,进一步包括确定作业运行时间可以在相关联的历史性能统计数据之内执行的可能性的步骤。
6.根据权利要求1的方法,其中,所述定期存储数据记录的步骤包括在数据仓库中存储数据记录。
7.根据权利要求6的方法,进一步包括将所述数据仓库划分为多个分布式数据仓库的步骤。
8.根据权利要求7的方法,其中,所述划分所述数据仓库的步骤基于所述网格计算环境如何在多个安全域上散布。
9.根据权利要求1的方法,其中,所述执行数据处理请求的若干部分的步骤包括确定所述数据处理请求的若干部分是否为应用程序特定请求的步骤。
10.根据权利要求9的方法,进一步包括根据确定所述数据处理请求的若干部分是否为应用程序特定请求的步骤的结果询问网格或询问网格的应用环境的步骤。
11.一种管理网格计算环境的系统,包括:
监控处理数据处理请求若干部分的所述网格计算环境中相应资源的装置;
内容可寻址存储装置,用于定期存储来自所述监控装置监控的相应资源的性能数据,所述性能数据包括识别对应的被监控相应资源和所述作业部分特征的数据;
根据所述特征检索所述内容可寻址存储装置存储的数据,并对所述数据进行处理,以形成处理的性能数据的装置;以及
根据所述处理的性能数据管理所述网格计算环境的装置。
12.根据权利要求11的系统,其中,所述管理所述网格计算环境的装置包括多个模块,用于执行包括下列至少其中之一的相应网格环境管理功能:成本估计、硬件/软件需求确定、RFP处理、网格内过程确定、网格元素财务数据分析和历史趋势分析。
13.根据权利要求11的系统,其中,所述管理所述网格计算环境的装置包括执行网格环境管理功能的模块。
14.根据权利要求11的系统,其中,所述检索和处理数据的装置包括记帐和统计管理模块。
15.根据权利要求14的系统,进一步包括网格工作负荷代理,其中所述记帐和统计管理模块向所述网格工作负荷代理提供所述处理的性能数据。
16.根据权利要求15的系统,进一步包括与所述网格工作负荷代理相关联的若干功能模块,以便执行与所述网格工作负荷代理相关联的若干功能,其中所述记帐和统计管理模块向所述若干功能模块提供所述处理的性能数据。
CN200610141341.6A 2005-10-04 2006-09-29 管理网格计算环境的方法和系统 Pending CN1946037A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/243,658 2005-10-04
US11/243,658 US8713179B2 (en) 2005-10-04 2005-10-04 Grid computing accounting and statistics management system

Publications (1)

Publication Number Publication Date
CN1946037A true CN1946037A (zh) 2007-04-11

Family

ID=37903136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610141341.6A Pending CN1946037A (zh) 2005-10-04 2006-09-29 管理网格计算环境的方法和系统

Country Status (4)

Country Link
US (1) US8713179B2 (zh)
JP (1) JP5782212B2 (zh)
CN (1) CN1946037A (zh)
TW (1) TW200742341A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103201740A (zh) * 2010-11-15 2013-07-10 萨思学会有限公司 与分布式数据库架构并靠的网格计算系统

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7707575B2 (en) * 2004-09-20 2010-04-27 Hewlett-Packard Development Company, L.P. System and method for selecting a portfolio of resources in a heterogeneous data center
GB0513321D0 (en) * 2005-06-29 2005-08-03 Ibm A method and system for determining a plurality of scheduling endpoints in a grid network
US8539496B1 (en) * 2005-12-12 2013-09-17 At&T Intellectual Property Ii, L.P. Method and apparatus for configuring network systems implementing diverse platforms to perform business tasks
US7958509B2 (en) * 2005-12-21 2011-06-07 International Business Machines Corporation Method and system for scheduling of jobs
US20070198554A1 (en) * 2006-02-10 2007-08-23 Sun Microsystems, Inc. Apparatus for business service oriented management infrastructure
US9432443B1 (en) * 2007-01-31 2016-08-30 Hewlett Packard Enterprise Development Lp Multi-variate computer resource allocation
US20090077235A1 (en) * 2007-09-19 2009-03-19 Sun Microsystems, Inc. Mechanism for profiling and estimating the runtime needed to execute a job
US20090158276A1 (en) * 2007-12-12 2009-06-18 Eric Lawrence Barsness Dynamic distribution of nodes on a multi-node computer system
US8281012B2 (en) * 2008-01-30 2012-10-02 International Business Machines Corporation Managing parallel data processing jobs in grid environments
JP2010072854A (ja) * 2008-09-17 2010-04-02 Canon Inc 情報処理装置の支援装置、支援方法、およびコンピュータプログラム
US8271974B2 (en) * 2008-10-08 2012-09-18 Kaavo Inc. Cloud computing lifecycle management for N-tier applications
US20100103445A1 (en) * 2008-10-27 2010-04-29 Xerox Corporation System and method for processing a document workflow
US20100146033A1 (en) * 2008-12-10 2010-06-10 International Business Machines Corporation Selection of transaction managers based on runtime data
US8276141B2 (en) * 2008-12-10 2012-09-25 International Business Machines Corporation Selection of transaction managers based on transaction metadata
US8689227B2 (en) * 2009-01-30 2014-04-01 Hewlett-Packard Development Company, L.P. System and method for integrating capacity planning and workload management
US8935702B2 (en) * 2009-09-04 2015-01-13 International Business Machines Corporation Resource optimization for parallel data integration
GB2475897A (en) * 2009-12-04 2011-06-08 Creme Software Ltd Resource allocation using estimated time to complete jobs in a grid or cloud computing environment
US9058210B2 (en) * 2010-03-23 2015-06-16 Ebay Inc. Weighted request rate limiting for resources
US20120173209A1 (en) * 2010-09-29 2012-07-05 Peter Leonard Krebs System and method for analyzing and designing an architectural structure using parametric analysis
US8621477B2 (en) * 2010-10-29 2013-12-31 International Business Machines Corporation Real-time monitoring of job resource consumption and prediction of resource deficiency based on future availability
JPWO2012060098A1 (ja) * 2010-11-05 2014-05-12 日本電気株式会社 情報処理装置
GB2486402A (en) * 2010-12-07 2012-06-20 1E Ltd Monitoring processes in a computer
CN102790788B (zh) * 2011-05-23 2014-12-10 同济大学 一种网格资源管理系统
US8849976B2 (en) * 2011-09-26 2014-09-30 Limelight Networks, Inc. Dynamic route requests for multiple clouds
US20150113539A1 (en) * 2012-05-25 2015-04-23 Nec Europe Ltd. Method for executing processes on a worker machine of a distributed computing system and a distributed computing system
US9405812B2 (en) 2012-10-22 2016-08-02 Platfora, Inc. Systems and methods for providing performance metadata in interest-driven business intelligence systems
US9934299B2 (en) 2012-10-22 2018-04-03 Workday, Inc. Systems and methods for interest-driven data visualization systems utilizing visualization image data and trellised visualizations
US9767173B2 (en) 2012-10-22 2017-09-19 Workday, Inc. Systems and methods for interest-driven data sharing in interest-driven business intelligence systems
US9824127B2 (en) 2012-10-22 2017-11-21 Workday, Inc. Systems and methods for interest-driven data visualization systems utilized in interest-driven business intelligence systems
US9405811B2 (en) 2013-03-08 2016-08-02 Platfora, Inc. Systems and methods for interest-driven distributed data server systems
US9892178B2 (en) 2013-09-19 2018-02-13 Workday, Inc. Systems and methods for interest-driven business intelligence systems including event-oriented data
WO2015060893A1 (en) 2013-10-22 2015-04-30 Platfora, Inc. Systems and methods for interest-driven data visualization systems utilizing visualization image data and trellised visualizations
US11488180B1 (en) * 2014-01-22 2022-11-01 Amazon Technologies, Inc. Incremental business event recording
US11303539B2 (en) 2014-12-05 2022-04-12 Accenture Global Services Limited Network component placement architecture
US11381468B1 (en) * 2015-03-16 2022-07-05 Amazon Technologies, Inc. Identifying correlated resource behaviors for resource allocation
US9886311B2 (en) 2015-04-24 2018-02-06 International Business Machines Corporation Job scheduling management
US9934304B2 (en) 2015-08-18 2018-04-03 Workday, Inc. Systems and methods for memory optimization interest-driven business intelligence systems
US10678591B1 (en) * 2015-09-22 2020-06-09 Adap.Tv, Inc. Systems and methods for optimization of data element utilization using demographic data
US10069758B2 (en) * 2016-05-23 2018-09-04 Hartford Fire Insurance Company Processing system responsive to analysis filter criteria
US10970153B2 (en) 2018-06-17 2021-04-06 International Business Machines Corporation High-granularity historical performance snapshots
CN109271305A (zh) * 2018-09-14 2019-01-25 郑州云海信息技术有限公司 一种信息获取方法和装置
US11782954B2 (en) * 2020-10-20 2023-10-10 Salesforce, Inc. User identifier match and merge process
US11875057B2 (en) * 2021-07-20 2024-01-16 Nvidia Corporation Shared structure for a logic analyzer and programmable state machine

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076174A (en) * 1998-02-19 2000-06-13 United States Of America Scheduling framework for a heterogeneous computer network
US7614036B2 (en) * 2001-03-22 2009-11-03 Robert D Bjornson Method and system for dataflow creation and execution
US7120648B2 (en) * 2002-02-26 2006-10-10 International Business Machines Corporation System and method for predicting execution time of a database utility command
US7185046B2 (en) * 2002-08-28 2007-02-27 Sun Microsystems, Inc. Submitting jobs in a distributed computing environment
US7383550B2 (en) * 2002-12-23 2008-06-03 International Business Machines Corporation Topology aware grid services scheduler architecture
US7171470B2 (en) * 2003-02-20 2007-01-30 International Business Machines Corporation Grid service scheduling of related services using heuristics
US7716061B2 (en) * 2003-03-27 2010-05-11 International Business Machines Corporation Method and apparatus for obtaining status information in a grid
US7519564B2 (en) * 2004-11-16 2009-04-14 Microsoft Corporation Building and using predictive models of current and future surprises
US7433931B2 (en) * 2004-11-17 2008-10-07 Raytheon Company Scheduling in a high-performance computing (HPC) system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103201740A (zh) * 2010-11-15 2013-07-10 萨思学会有限公司 与分布式数据库架构并靠的网格计算系统
CN103201740B (zh) * 2010-11-15 2017-06-13 萨思学会有限公司 与分布式数据库架构并靠的网格计算系统

Also Published As

Publication number Publication date
JP2007102789A (ja) 2007-04-19
TW200742341A (en) 2007-11-01
US20070078960A1 (en) 2007-04-05
US8713179B2 (en) 2014-04-29
JP5782212B2 (ja) 2015-09-24

Similar Documents

Publication Publication Date Title
CN1946037A (zh) 管理网格计算环境的方法和系统
US6996576B2 (en) Database management system and method which automatically schedules and performs actions and monitors results
US8245237B2 (en) Providing resources to a job comparing estimated execution time on currently available nodes and estimated execution time on nodes available after completion of a currently executing job
US5325505A (en) Intelligent storage manager for data storage apparatus having simulation capability
US7519566B2 (en) Method and apparatus for automatically and continuously updating prediction models in real time based on data mining
Yang et al. Intermediate data caching optimization for multi-stage and parallel big data frameworks
CN113037877B (zh) 云边端架构下时空数据及资源调度的优化方法
US11956330B2 (en) Adaptive data fetching from network storage
CN111400033B (zh) 平台资源成本分摊方法、装置、存储介质及计算机设备
CN1783121A (zh) 用于执行设计自动化的方法和系统
US8201145B2 (en) System and method for workflow-driven data storage
CN113360210A (zh) 数据对账方法、装置、计算机设备和存储介质
Khanli et al. An approach to grid resource selection and fault management based on ECA rules
CN111625352A (zh) 调度方法、装置及存储介质
CN112199401B (zh) 数据请求处理方法、装置、服务器、系统及存储介质
Nardelli et al. Function Offloading and Data Migration for Stateful Serverless Edge Computing
Foxon et al. Capacity planning in client-server systems
US11514044B2 (en) Automated plan upgrade system for backing services
CN118409974B (zh) 一种基于大数据分析的反向酒店Ai智能抢单平台的优化方法
US8606813B1 (en) System and method for function selection in analytic processing
US12028271B2 (en) Prioritizing messages for server processing based on monitoring and predicting server resource utilization
US20240202609A1 (en) A communications server, a method, a user device and a booking system
CN118394497A (zh) 数据处理方法、装置及系统
Finocchi On Data Skewness, Stragglers, and MapReduce Progress Indicators
Boicov Maximum of load database of GPS service with recovery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication