CN102567112A - 集群系统中业务与计算设备的匹配装置 - Google Patents

集群系统中业务与计算设备的匹配装置 Download PDF

Info

Publication number
CN102567112A
CN102567112A CN201010581703XA CN201010581703A CN102567112A CN 102567112 A CN102567112 A CN 102567112A CN 201010581703X A CN201010581703X A CN 201010581703XA CN 201010581703 A CN201010581703 A CN 201010581703A CN 102567112 A CN102567112 A CN 102567112A
Authority
CN
China
Prior art keywords
index
professional
computing equipment
hardware
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010581703XA
Other languages
English (en)
Inventor
张丽晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanda University
Original Assignee
Sanda University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanda University filed Critical Sanda University
Priority to CN201010581703XA priority Critical patent/CN102567112A/zh
Publication of CN102567112A publication Critical patent/CN102567112A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明揭示了一种集群系统中业务与计算设备的匹配装置,包括:硬件测试装置,测试集群系统中的计算设备的硬件指标,硬件指标包括处理器速度、存储器容量、内存容量、网络传输速度、网络安全等级、可靠性和附加硬件;软件测试装置,测试集群系统接收的业务的软件指标,软件指标包括处理器速度指标、存储器指标、内存指标、网络传输指标、网络安全指标、可靠性指标和业务分类;匹配度计算装置,比较硬件指标和软件指标,得到计算设备与业务的匹配度。本发明能够测算软件,例如待执行的业务与硬件,例如集群系统中的计算设备之间的匹配程度,能够帮助集群系统将每一项业务调度给具有最高匹配程度的计算设备来执行,以提高集群能够的整体运行效率。

Description

集群系统中业务与计算设备的匹配装置
技术领域
本发明涉及计算机技术,尤其涉及一种在集群系统中的对软硬件,即业务和计算设备进行匹配度计算的匹配装置。
背景技术
高性能计算一直是国内外科技界,甚至政府十分重视的高科技领域。它不仅同科学技术与国民经济的发展密切有关,而且还直接影响到国家的国防能力和国家安全。在近年来出现的支持高性能计算的计算机系统中,集群系统作为一种易扩充、性价比高的方案得到广泛采纳。应用程序的需求是无限的、不断变化的,集群系统可以有效地支持更广泛的工作负载。2007年11月在国外权威网站上公布的TOP500高性能计算机中,集群系统占据了81.20%。
在集群系统中,良好的调度可以高效利用集群资源,使集群中全部汇集起来的处理能力高效地在众多用户间分配。作业调度是一个很复杂的问题,调度算法是一个应用相关(Application-specific)的问题,具体应用的特性在很大程度上影响和决定着调度系统的性能。调度系统对于不同类型的应用应当采用不同的调度策略,只有在充分考虑作业及资源特性的基础上提出的调度算法才能够获得较高的系统性能。要想在并行化能力上有较大提高,则必须付出昂贵的硬件代价和设计出复杂的算法。
并行作业调度中最主要的两个算法是Backfilling算法和Gang调度算法。Backfilling算法是FCFS算法的改进,它允许调度器不按作业到达顺序运行,当资源无法满足前面大作业的运行要求时,它让一些小作业先运行在当前空闲的处理器上(称为回填)以提高资源利用率。后来很多算法在其基础上进行了改进,出现了EASY(Extensible Argonne SchedulingsYstem)Backfilling算法、保守Backfilling算法和基于Backfilling算法的“扩履适足”的改进算法。
Gang调度的思想是将作业作为一个整体进行调度。每台机器上为作业提供一个相同的环境,一个作业的所有进程一起运行。Gang调度算法是基于并行程序间会有频繁的同步而提出的,避免各并行进程由于运行步调不一致而等待所造成的等待时间。成对Gang调度算法、缓冲协同调度算法是对Gang调度算法的改进。
还有很多其他调度算法,如BestFit算法、自适应算法、遗传算法、基于经济学的资源调度算法和基于QOS的调度算法等,每个算法都有自己的优缺点,满足特定的应用需求。如此而言,上述算法的一个共同的缺点就是通用性不高,都仅局限在一个局部领域。
发明内容
本发明旨在提出一种测算软件与硬件匹配程度的装置,使得软件能够被最适合运行它的硬件来执行。
根据本发明,提出一种集群系统中业务与计算设备的匹配装置,包括:
硬件测试装置,测试集群系统中的计算设备的硬件指标,硬件指标包括处理器速度、存储器容量、内存容量、网络传输速度、网络安全等级、可靠性和附加硬件;
软件测试装置,测试集群系统接收的业务的软件指标,软件指标包括处理器速度指标、存储器指标、内存指标、网络传输指标、网络安全指标、可靠性指标和业务分类;
匹配度计算装置,比较硬件指标和软件指标,得到计算设备与业务的匹配度。
其中硬件测试装置执行下列的项目:测试计算设备的处理器速度;检测计算设备的存储器容量和内存容量;检测计算设备的网络传输速度和网络安全等级;测试计算设备的可靠性;检测计算设备的附加硬件。
硬件测试装置检测计算设备的附加硬件并将附加硬件划归到下述分类中的一种:大量运算设备、图形处理设备、高安全性设备、数据传输设备。
其中软件测试装置执行下列的项目:根据该业务的运算规模计算处理器速度指标和内存指标;根据该业务的数据规模计算存储器指标;根据该业务的运算分布性计算网络传输指标和网络安全指标;根据该业务的可靠性要求计算可靠性指标;根据该业务的种类确定业务分类。
软件测试装置将业务分类确定为下述分类中的一种:大量运算业务、图形处理业务、高安全性业务、数据传输业务。
匹配度计算装置将软件指标中的处理器速度指标、存储器指标、内存指标、网络传输指标、网络安全指标和可靠性指标分别与硬件指标中的处理器速度、存储器容量、内存容量、网络传输速度、网络安全等级和可靠性进行比较,计算每一项的偏差值并将偏差值累加得到总偏差值;匹配度计算装置将软件指标的业务分类与硬件指标中的附加硬件比较,得到倾向值;将总偏差值与倾向值相乘,得到计算设备与业务的匹配度。
匹配度计算装置基于下表计算倾向值:
  大量运算设备   图形处理设备   高安全性设备   数据传输设备
  大量运算业务   1   2   3   3
  图形处理业务   2   1   3   3
  高安全性业务   3   3   1   3
  数据传输业务   3   3   2   1
本发明的集群系统中业务与计算设备的匹配装置能够测算软件,例如待执行的业务与硬件,例如集群系统中的计算设备之间的匹配程度,能够帮助集群系统将每一项业务调度给具有最高匹配程度的计算设备来执行,以提高集群能够的整体运行效率。
附图说明
图1是根据本发明的集群系统中业务与计算设备的匹配装置的结构图。
具体实施方式
研究表明,在集群系统中,对业务运行有影响的因素可以归结为两大类:软件环境和硬件资源。软件环境主要指特定程序运行所需的运行环境、编译器和工具库,如科学与工程计算软件包PETSc(Portable ExetensibleTookit for Scientific Computing)、BLAS(Basic Linear AlgebraSubprograms)等等。不同的业务可能要求不同的软件环境,只有满足了执行所需的软件需求作业才能运行。
同一个作业在不同配置的计算机上运行的运行时间不同。CPU主频高、内存大、硬盘大的结点运行作业的速度就比较快。并行作业计算时往往要把完成的作业分布到各个处理结点并行执行,各结点间会有大量的通信,所以网络速度对运行也有影响。通过在不同配置机器上运行不同作业测试作业与资源的具体联系,证明CPU频率对计算密集型的作业的影响很大,通信速度对通信密集型作业影响很大。在调度时若根据作业特点选择相应结点运行可以取得很好的调度效果。
很多调度算法的实施是仅基于估计的作业运行时间,但是作业运行时间很难准确给定,虽然有研究使用建模方式提高估计的准确性或采用奖励的办法提高用户估计的准确性,但平均精确度还是没有明显提高,所以仅基于估计的作业运行时间的调度方法是不精确的。
实验证明硬件资源对作业的影响很大,软件和硬件的匹配很大程度上决定了系统的工作效率。于是,本发明提出一种专门测算软件和硬件的匹配程度的设备。参考图1所示,本发明的集群系统中业务与计算设备的匹配装置包括:硬件测试装置10、软件测试装置20和匹配度计算装置30。
硬件测试装置10具有一系列的测试模块11,用于测试集群系统中的计算设备的硬件指标,在一个实施例中,硬件指标包括处理器速度、存储器容量、内存容量、网络传输速度、网络安全等级、可靠性和附加硬件。
软件测试装置20具有一系列的测试模块21,用于测试集群系统接收的业务的软件指标,所述软件指标包括处理器速度指标、存储器指标、内存指标、网络传输指标、网络安全指标、可靠性指标和业务分类。
匹配度计算装置30连接到硬件测试装置10和软件测试装置20,比较硬件指标和软件指标,得到计算设备与业务的匹配度。
在一个实施例中,硬件测试装置10中的一系列测试模块11执行下列的项目:测试计算设备的处理器速度;检测计算设备的存储器容量和内存容量;检测计算设备的网络传输速度和网络安全等级;测试计算设备的可靠性;检测计算设备的附加硬件,其中,硬件测试装置10检测计算设备的附加硬件并将附加硬件划归到下述分类中的一种:大量运算设备、图形处理设备、高安全性设备、数据传输设备。
在一个实施例中,软件测试装置20中的一系列测试模块21执行下列的项目:根据该业务的运算规模计算处理器速度指标和内存指标;根据该业务的数据规模计算存储器指标;根据该业务的运算分布性计算网络传输指标和网络安全指标;根据该业务的可靠性要求计算可靠性指标;根据该业务的种类确定业务分类,其中,软件测试装置20将业务分类确定为下述分类中的一种:大量运算业务、图形处理业务、高安全性业务、数据传输业务。
匹配度计算装置30将软件指标中的处理器速度指标、存储器指标、内存指标、网络传输指标、网络安全指标和可靠性指标分别与硬件指标中的处理器速度、存储器容量、内存容量、网络传输速度、网络安全等级和可靠性进行比较,计算每一项的偏差值并将偏差值累加得到总偏差值。在一个实施例中,所有的偏差值计算都采用标准化的算法,即以软件指标中的各项为基准值1,计算区域分类参数中的各项与之的百分比偏差,得到的偏差值累加得到总偏差值。例如,以处理器速度指标为例,软件指标中的处理器速度指标设定为1,而硬件指标中的处理器速度与之偏差为20%,那么在处理器速度指标这一项上的偏差值就是0.2。匹配度计算装置还将软件指标的业务分类与硬件指标中的附加硬件比较,得到倾向值。有些业务需要特殊的硬件处理,或者说具备特殊硬件的计算设备对于该种业务的处理能力能够提高很多,而不具备特殊硬件的计算设备对于该种业务的处理能力要差很多。因此,倾向值也是考虑软件和硬件匹配程度时的重要因素。在一个实施例中,匹配度计算装置30基于下述的表1计算倾向值:
表1
  大量运算设备   图形处理设备   高安全性设备   数据传输设备
  大量运算业务   1   2   3   3
  图形处理业务   2   1   3   3
  高安全性业务   3   3   1   3
  数据传输业务   3   3   2   1
倾向值越小,表明越适合。最小的倾向值为1。参考表1所示,具有1的倾向值表示具备对应的专用硬件。具有2的倾向值表示虽然不是专用硬件,但是该计算设备具备的硬件对处理业务也有益处。具有3的倾向值表示计算设备不具有处理业务所需要的专用设备。
最后,将总偏差值与倾向值相乘,得到计算设备与业务的匹配度。数值越小,表示软件指标与硬件指标越接近,也就意味着该软件和硬件匹配度高。
本发明的集群系统中业务与计算设备的匹配装置能够测算软件,例如待执行的业务与硬件,例如集群系统中的计算设备之间的匹配程度,能够帮助集群系统将每一项业务调度给具有最高匹配程度的计算设备来执行,以提高集群能够的整体运行效率。

Claims (7)

1.一种集群系统中业务与计算设备的匹配装置,其特征在于,包括:
硬件测试装置,测试集群系统中的计算设备的硬件指标,所述硬件指标包括处理器速度、存储器容量、内存容量、网络传输速度、网络安全等级、可靠性和附加硬件;
软件测试装置,测试集群系统接收的业务的软件指标,所述软件指标包括处理器速度指标、存储器指标、内存指标、网络传输指标、网络安全指标、可靠性指标和业务分类;
匹配度计算装置,比较所述硬件指标和软件指标,得到计算设备与业务的匹配度。
2.如权利要求1所述的集群系统中业务与计算设备的匹配装置,其特征在于,所述硬件测试装置:
测试计算设备的处理器速度;
检测计算设备的存储器容量和内存容量;
检测计算设备的网络传输速度和网络安全等级;
测试计算设备的可靠性;
检测计算设备的附加硬件。
3.如权利要求2所述的集群系统中业务与计算设备的匹配装置,其特征在于,
所述硬件测试装置检测计算设备的附加硬件并将附加硬件划归到下述分类中的一种:
大量运算设备、图形处理设备、高安全性设备、数据传输设备。
4.如权利要求3所述的集群系统中业务与计算设备的匹配装置,其特征在于,所述软件测试装置:
根据该业务的运算规模计算处理器速度指标和内存指标;
根据该业务的数据规模计算存储器指标;
根据该业务的运算分布性计算网络传输指标和网络安全指标;
根据该业务的可靠性要求计算可靠性指标;
根据该业务的种类确定业务分类。
5.如权利要求4所述的集群系统中业务与计算设备的匹配装置,其特征在于,
所述软件测试装置将业务分类确定为下述分类中的一种:
大量运算业务、图形处理业务、高安全性业务、数据传输业务。
6.如权利要求5所述的集群系统中业务与计算设备的匹配装置,其特征在于,所述匹配度计算装置将软件指标中的处理器速度指标、存储器指标、内存指标、网络传输指标、网络安全指标和可靠性指标分别与硬件指标中的处理器速度、存储器容量、内存容量、网络传输速度、网络安全等级和可靠性进行比较,计算每一项的偏差值并将偏差值累加得到总偏差值;
所述匹配度计算装置将软件指标的业务分类与硬件指标中的附加硬件比较,得到倾向值;
将总偏差值与倾向值相乘,得到计算设备与业务的匹配度。
7.如权利要求6所述的集群系统中业务与计算设备的匹配装置,其特征在于,
所述匹配度计算装置基于下表计算倾向值:
  大量运算设备   图形处理设备   高安全性设备   数据传输设备   大量运算业务   1   2   3   3   图形处理业务   2   1   3   3   高安全性业务   3   3   1   3   数据传输业务   3   3   2   1
CN201010581703XA 2010-12-09 2010-12-09 集群系统中业务与计算设备的匹配装置 Pending CN102567112A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010581703XA CN102567112A (zh) 2010-12-09 2010-12-09 集群系统中业务与计算设备的匹配装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010581703XA CN102567112A (zh) 2010-12-09 2010-12-09 集群系统中业务与计算设备的匹配装置

Publications (1)

Publication Number Publication Date
CN102567112A true CN102567112A (zh) 2012-07-11

Family

ID=46412600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010581703XA Pending CN102567112A (zh) 2010-12-09 2010-12-09 集群系统中业务与计算设备的匹配装置

Country Status (1)

Country Link
CN (1) CN102567112A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794098A (zh) * 2015-04-28 2015-07-22 湖北邮电规划设计有限公司 一种数据中心物理主机及存储设计方法及系统
CN108289086A (zh) * 2017-01-10 2018-07-17 阿里巴巴集团控股有限公司 请求处理方法及装置、服务器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794098A (zh) * 2015-04-28 2015-07-22 湖北邮电规划设计有限公司 一种数据中心物理主机及存储设计方法及系统
CN104794098B (zh) * 2015-04-28 2017-05-10 湖北邮电规划设计有限公司 一种数据中心物理主机及存储设计方法及系统
CN108289086A (zh) * 2017-01-10 2018-07-17 阿里巴巴集团控股有限公司 请求处理方法及装置、服务器
CN108289086B (zh) * 2017-01-10 2020-11-24 阿里巴巴集团控股有限公司 请求处理方法及装置、服务器

Similar Documents

Publication Publication Date Title
CN102541652A (zh) 集群系统的业务调度方法
Liu et al. Design and manufacturing model of customized hydrostatic bearing system based on cloud and big data technology
Reichenbach et al. A distributed linear least squares method for precise localization with low complexity in wireless sensor networks
CN101841565B (zh) 数据库集群系统负载均衡方法和数据库集群系统
CN103970587B (zh) 一种资源调度的方法、设备和系统
US20140215477A1 (en) Realizing graph processing based on the mapreduce architecture
Sivasakthiselvan et al. RETRACTED ARTICLE: A new localization technique for node positioning in wireless sensor networks
Zhao et al. A data placement strategy for data-intensive scientific workflows in cloud
Li et al. Parallelizing skyline queries over uncertain data streams with sliding window partitioning and grid index
CN102254016A (zh) 一种面向云计算环境的容错并行Skyline查询方法
Wu et al. Large-scale energy-conscious bi-objective single-machine batch scheduling under time-of-use electricity tariffs via effective iterative heuristics
CN102253883A (zh) 一种服务器性能评价的方法和系统
Radchenko et al. Micro-workflows: Kafka and kepler fusion to support digital twins of industrial processes
CN103988179A (zh) 用于在地理分布数据中心中降低延迟和改善弹性的优化机制
Li et al. Event-based modelling of distributed sensor networks in battery manufacturing
CN102567112A (zh) 集群系统中业务与计算设备的匹配装置
Lin et al. An adaptive workload-aware power consumption measuring method for servers in cloud data centers
CN102609347A (zh) 一种虚拟化环境下负载热点检测的方法
Zaarour et al. Automatic anomaly detection over sliding windows: Grand challenge
Getov et al. Codesign for systems and applications: Charting the path to exascale computing
Nazari et al. Inverse and reverse 2-facility location problems with equality measures on a network
CN101964024B (zh) 一种快速确定固相颗粒所在气相非结构网格的方法
CN104978604A (zh) 一种基于业务能力模型的模拟仿真方法和装置
CN102546358A (zh) 多级调度系统
Krumke et al. 2-approximation algorithm for minmax absolute maximum lateness scheduling-location problem

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120711