CN1508684A - 评价计算机机群系统可信性的方法 - Google Patents
评价计算机机群系统可信性的方法 Download PDFInfo
- Publication number
- CN1508684A CN1508684A CNA021578796A CN02157879A CN1508684A CN 1508684 A CN1508684 A CN 1508684A CN A021578796 A CNA021578796 A CN A021578796A CN 02157879 A CN02157879 A CN 02157879A CN 1508684 A CN1508684 A CN 1508684A
- Authority
- CN
- China
- Prior art keywords
- workstation
- network
- model
- credibility
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种评价计算机机群系统可信性的方法,适用于机群系统设计时的可信性预测和对实际运行的机群的可信评价,其中包括如下步骤:1)用层次化的着色Petri网理论描述描述机群系统;2)将机群分为故障、故障侦测、故障恢复和高可用系统四个模块,根据不同的机群结构设计模型;3)根据用户的输入参数,动态的生成各模块中相应的模型,然后将各模块连接成整体模型;4)采用模拟的方法进行求解;5)对结果进行统计,计算机群及机群上应用的多种可信性评价指标。这种方法适用于所有基于通用机群体系结构的机群系统。
Description
技术领域
本发明涉及计算机领域,特别是指一种评价计算机机群系统可信性的方法。
背景技术
随着分布式计算理论与技术的不断发展,机群系统因其优良的性能、高性价比、兼容性和资源共享等特点逐渐成为大型计算机系统设计的主流。机群是一组物理上通过高速互连网连接在一起的计算机集合,通过附加的机群系统软件,互相协作,作为一个整体对外提供服务,其中每个计算机称为一个结点。目前,机群已逐渐朝两个方向发展:高性能计算(HP,High Performance)和高可用计算(HA,High Availability),并被广泛的应用在如经典的高性能计算应用、决策支持和事务处理、商业计算应用、数字图书馆、生物信息学和视频多媒体系统等等领域。
机群系统的优点是可扩展性好。但随着机群系统规模的增大,结点数目的增多,机群系统整体的可靠性会相应降低。因此可能因故障发生停机。故障一般可分为计划中故障和非计划中故障,计划中故障是根据工作安排有意停止正常工作,包括应用软件升级,操作系统升级,机器硬件设备正常维护,数据备份等;非计划中故障是由于发生意外事件而停止工作,包括机器硬件故障,操作系统崩溃,应用软件出错,网络故障等。为了关键应用的可靠性和连续性,必须增进系统的稳定性及自我修复的能力,使系统可以提供每年365天,每天二十四小时的服务。系统能够不间断的正确运行的能力受到了前所未有的关注。无论是在军事、商业、科技或教育中,系统的可信性(dependability)直接影响了一个项目的成败。因此,准确的评价机群系统的可信性至为重要。
然而现有的可信性评价方法大多是围绕专门的容错系统设计的,因此不能有效的对通用的机群系统进行可信性评价。例如,对于拓扑方式呈非串并联的系统来说,当机群系统规模增大时,组合模型求解将变得相当复杂,并且不能反映系统的瞬间故障等系统复杂的行为模式。而基于Markov更新过程的涉及可用性、可靠性、维修性的定量研究虽然可以描述诸如故障的顺序性,动态的系统结构等的复杂特征,但却难以刻画系统事件并发性以及故障率和任务修复率不为常数的情况。
发明内容
为此本发明的目的在于提供一种评价计算机机群系统可信性的方法,该方法使用已有理论准确描述了机群的故障模型、体系结构、应用模型和高可用系统,通过模拟和结果分析得到系统的各项可信性指标,从而可以评价现有的机群系统。
本发明的具体实现方法如下:
本发明一种评价计算机机群系统可信性的方法,适用于机群系统设计时的可信性预测和对实际运行的机群的可信评价,其特征在于,其中包括如下步骤:
1)用层次化的着色Petri网理论描述描述机群系统;
2)将机群分为故障、故障侦测、故障恢复和高可用系统四个模块,根据不同的机群结构设计模型;
3)根据用户的输入参数,动态的生成各模块中相应的模型,然后将各模块连接成整体模型;
4)采用模拟的方法进行求解;
5)对结果进行统计,计算机群及机群上应用的多种可信性评价指标。
其中步骤1)机群系统由层次化的着色Petri网模型描述,模型提供了对通用机群结构,多种高可用系统,集中式或分布式,多种机群应用,高性能计算、商业应用计算机的广泛支持。
其中步骤3)用户可以使用随机分布或实际统计来进行参数的输入。
其中步骤4)采用事件驱动的方法进行模型的模拟求解。
其中步骤5)模拟结果的统计给出各项可信性评价指标。
附图说明
图1是本发明的流程图;
图2是本发明的系统结构框图。
具体实施方式
请参阅图1所示,本发明一种评价计算机机群系统可信性的方法,适用于机群系统设计时的可信性预测和对实际运行的机群的可信评价,其特征在于,其中包括如下步骤:
步骤1)用层次化的着色Petri网理论描述描述机群系统,机群系统由层次化的着色Petri网模型描述,模型提供了对通用机群结构,多种高可用系统,集中式或分布式,多种机群应用,高性能计算、商业应用计算机的广泛支持。
步骤2)将机群分为故障、故障侦测、故障恢复和高可用系统四个模块,根据不同的机群结构设计模型;
步骤3)根据用户的输入参数,动态的生成各模块中相应的模型,然后将各模块连接成整体模型,用户可以使用随机分布或实际统计来进行参数的输入。
步骤4)采用模拟的方法进行求解,采用事件驱动的方法进行模型的模拟求解。
步骤5)对结果进行统计,计算机群及机群上应用的多种可信性评价指标,模拟结果的统计给出各项可信性评价指标。
请参阅图2所示:
a.基于层次化着色Petri网的机群可信性模型:
机群可信性模型基于通用体系结构的机群系统,采用层次化的着色Petri网设计,使用面向对象的方法及语言描述。模型由故障注入,故障侦测,故障恢复和高可用系统等子模型组成;
故障注入子模型使用随机分布或实际值统计的方式,可以使本方法灵活适用于早期设计以及后期评价。故障注入可以综合负载等因素,这体现在故障注入到发生的延迟上。
故障侦测子模型描述了故障侦测器发现已发生故障的节点、应用和高可用系统的过程和时间,这一时间将主要取决于系统心跳的周期和超时次数。
故障恢复子模型针对不同的故障采用不同的恢复方式。对于节点的硬件故障,需要修理和更新;对于高可用系统的故障,将会重新启动故障部件;对于应用的故障,由高可用系统的管理者(在集中式系统中是master,在分布式系统中是leader)根据用户的指定采取重启或切换的恢复措施。
高可用系统子模型旨在综合描述为机群系统提供高可用性的部件,这些部件为故障的检测实现提供了可能。高可用系统可分为集中式和分布式。在集中式中由master统一维护系统的心跳信息,控制系统的成员;在分布式中逻辑上相邻的两节点互传心跳信息,系统成员发生变化时通过两阶段协议重新确认系统的组成,每一个成员都有系统组成的映像。高可用子模型需要对这两种不同的结构设计不同的模型,并根据用户的指定来选择其中之一。
b.模型的加载:
每个子模型都通过一个动态链接库(在windows下即dll)的同名输出函数输出此模型的一个对象。整体模型将把子模型的对象按层次化着色Petri网的合并方法进行联结,并读入含有用户参数的系统文件进行配置,然后将完成后的模型对象返回给模拟器。
c.模拟:
对着色Petri网模型的模拟使用了事件驱动的模拟方法。当Petri网中的某变迁(transition)被激活(enable)后,该变迁和其发生时间、相应的输入记号(token)集将被记录成一个事件,然后按时间顺序添加到未来事件链表中。每次模拟将从未来事件链表中取出时间最近的事件,如该事件仍处于激活态则令其发生(fire)。事件发生后系统状态的改变将可能引发其他事件的产生。未来事件链表反映了系统将可能发生的事件,系统时间通过事件的发生来推进。
d.结果统计与分析
在每一次模拟中,模型将要记录故障的发生次数、恢复情况、节点及应用正常运行的时间、故障间隔、修复时间等信息,在模拟完毕后,使用统计方法对这些信息进行分析,产生相映的图表,并给出标准的可信性参数(如可靠性、平均故障发生时间(MTTF),平均无故障时间(MTBF)等等)。
本发明的效果体现在:
1、该方法适用于多种通用机群结构。现有的系统可信性分析工具大多是围绕专门的容错系统设计的,因此不能有效的对通用的机群系统进行可信性评价。而通用机群系统已日益成为高性能计算以及商业服务器的主流,本发明提供的方法可以有效的支持现有的多种通用机群结构,因此适用范围广,具有很高的现实意义。
2、该方法采用了着色Petri网描述系统。Petri网具有很强的刻画复杂系统和事件高并发度的系统的能力,着色Petri网较普通的Petri网更加简洁、高效,并且结合了一般编程语言(如C)来对其进行设计,能够准确清晰的为系统建模。
3、该方法采用了事件驱动的模拟方法。采用模拟的方法进行求解使输入参数不仅仅局限于简单的随机分布,还能使输入实际值进行评价成为可能。利用实际统计值输入来模拟可以较准确的评价机群系统的可信性,并且能够发现系统的故障点,为进一步的提高系统容错的能力提供帮助。
4、该方法采用了面向对象的设计思想。子模型都被看成相互联系的对象,但每一个都可以分别测试和模拟。这将有助于增加新的模型来评价其他种类的机群系统,同时还可以方便的替换特定的模型来描述专用的机群结构。
5、该方法结合了现有的故障注入分析方法,产生更加可信的结果。现有的可信性评价方法一般多限于在实际条件下采用各种方式进行故障的注入,然后考察系统在故障下的行为。这些方法可以较准确的得到系统的短期参数(如故障侦测时间,恢复概率)。系统标准的可信性评价指标多是长期值,本方法结合了现有的故障注入分析方法,可将它们的结果作为底层的输入,产生更加可信的结果。
6、该方法可以为方案设计提供参考。利用假设的参数分布来模拟可以在系统实现之前来分析将获得的可信性指标。尤其是可以采用多种不同的系统实现方案进行模拟对比,完成实际中需花费大量人力物力来进行的方案选择工作。
Claims (5)
1、一种评价计算机机群系统可信性的方法,适用于机群系统设计时的可信性预测和对实际运行的机群的可信评价,其特征在于,其中包括如下步骤:
1)用层次化的着色Petri网理论描述描述机群系统;
2)将机群分为故障、故障侦测、故障恢复和高可用系统四个模块,根据不同的机群结构设计模型;
3)根据用户的输入参数,动态的生成各模块中相应的模型,然后将各模块连接成整体模型;
4)采用模拟的方法进行求解;
5)对结果进行统计,计算机群及机群上应用的多种可信性评价指标。
2、如权利要求1所述的评价计算机机群系统可信性的方法,其特征在于,其中步骤1)机群系统由层次化的着色Petri网模型描述,模型提供了对通用机群结构,多种高可用系统,集中式或分布式,多种机群应用,高性能计算、商业应用计算机的广泛支持。
3、如权利要求1所述的评价计算机机群系统可信性的方法,其特征在于,其中步骤3)用户可以使用随机分布或实际统计来进行参数的输入。
4、如权利要求1所述的评价计算机机群系统可信性的方法,其特征在于,其中步骤4)采用事件驱动的方法进行模型的模拟求解。
5、如权利要求1所述的评价计算机机群系统可信性的方法,其特征在于,其中步骤5)模拟结果的统计给出各项可信性评价指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA021578796A CN1508684A (zh) | 2002-12-20 | 2002-12-20 | 评价计算机机群系统可信性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA021578796A CN1508684A (zh) | 2002-12-20 | 2002-12-20 | 评价计算机机群系统可信性的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1508684A true CN1508684A (zh) | 2004-06-30 |
Family
ID=34236731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA021578796A Pending CN1508684A (zh) | 2002-12-20 | 2002-12-20 | 评价计算机机群系统可信性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1508684A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101741595B (zh) * | 2008-11-26 | 2012-04-25 | 华为技术有限公司 | 一种网络可靠性评估方法、装置和系统 |
CN104361182A (zh) * | 2014-11-21 | 2015-02-18 | 中国人民解放军国防科学技术大学 | 基于Petri网的微处理器微体系结构参数优化方法 |
CN105488537A (zh) * | 2015-12-11 | 2016-04-13 | 中国航空工业集团公司西安飞机设计研究所 | 一种基于Petri网的部件故障属性表征方法 |
-
2002
- 2002-12-20 CN CNA021578796A patent/CN1508684A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101741595B (zh) * | 2008-11-26 | 2012-04-25 | 华为技术有限公司 | 一种网络可靠性评估方法、装置和系统 |
CN104361182A (zh) * | 2014-11-21 | 2015-02-18 | 中国人民解放军国防科学技术大学 | 基于Petri网的微处理器微体系结构参数优化方法 |
CN104361182B (zh) * | 2014-11-21 | 2017-08-25 | 中国人民解放军国防科学技术大学 | 基于Petri网的微处理器微体系结构参数优化方法 |
CN105488537A (zh) * | 2015-12-11 | 2016-04-13 | 中国航空工业集团公司西安飞机设计研究所 | 一种基于Petri网的部件故障属性表征方法 |
CN105488537B (zh) * | 2015-12-11 | 2019-01-18 | 中国航空工业集团公司西安飞机设计研究所 | 一种基于Petri网的部件故障属性表征方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309071B (zh) | 测试代码的生成方法及模块、测试方法及系统 | |
Kwiatkowska et al. | Prism: Probabilistic model checking for performance and reliability analysis | |
Heath et al. | Improving cluster availability using workstation validation | |
US20040193612A1 (en) | System and method for testing, monitoring, and tracking distributed transactions using a search engine | |
Goševa-Popstojanova et al. | Stochastic modeling formalisms for dependability, performance and performability | |
CN102354298A (zh) | 基于staf的高端容错机故障注入自动化测试平台及方法 | |
Jones et al. | Application monitoring and checkpointing in hpc: looking towards exascale systems | |
Lan et al. | Adaptive fault management of parallel applications for high-performance computing | |
Hermanns et al. | Stochastic process algebras as a tool for performance and dependability modelling | |
US6567935B1 (en) | Performance linking methodologies | |
Goldberg | Development and analysis of the software implemented fault-tolerance (SIFT) computer | |
Trivedi et al. | Software fault mitigation and availability assurance techniques | |
CN108647137A (zh) | 一种作业性能预测方法、装置、介质、设备及系统 | |
Hammond et al. | End-to-end framework for fault management for open source clusters: Ranger | |
CN114036034A (zh) | 一种应用于实时流式计算的性能测试方法 | |
Tang et al. | Analysis of the VAX/VMS error logs in multicomputer environments-a case study of software dependability | |
Herzog et al. | Stochastic process algebras applied to failure modelling | |
Lin et al. | Edits: An easy-to-difficult training strategy for cloud failure prediction | |
CN1508684A (zh) | 评价计算机机群系统可信性的方法 | |
Boudali et al. | DFTSim: A simulation tool for extended dynamic fault trees | |
Tang et al. | Automatic generation of availability models in rascad | |
Vilkomir et al. | Availability evaluation of hardware/software systems with several recovery procedures | |
CN102982231B (zh) | 软件可信度的定量计算方法 | |
Rover et al. | Software tools for complex distributed systems: Toward integrated tool environments | |
Haverkort | Performability evaluation of fault-tolerant computer systems using DyQNtool+ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |