CN104125165A - 一种基于异构集群的作业调度系统及方法 - Google Patents

一种基于异构集群的作业调度系统及方法 Download PDF

Info

Publication number
CN104125165A
CN104125165A CN201410405297.XA CN201410405297A CN104125165A CN 104125165 A CN104125165 A CN 104125165A CN 201410405297 A CN201410405297 A CN 201410405297A CN 104125165 A CN104125165 A CN 104125165A
Authority
CN
China
Prior art keywords
job scheduling
cpu
gpu
computing
computational resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410405297.XA
Other languages
English (en)
Inventor
陈良华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410405297.XA priority Critical patent/CN104125165A/zh
Publication of CN104125165A publication Critical patent/CN104125165A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Stored Programmes (AREA)

Abstract

本发明特别涉及一种基于异构集群的作业调度系统及方法。该基于异构集群的作业调度系统,包括2台作业调度服务器、n台CPU计算节点服务器、n台GPU计算节点服务器和共享存储设备;采用以太网做集群管理网络,使用infiniband高速网络做计算网络,操作系统采用Redhatlinux。该基于异构集群的作业调度系统及方法,该基于异构集群的作业调度系统及方法,通过异构作业调度,实现了异构计算资源的充分利用,并在原有基础上,计算能力提高了40%,从而进一步保证HPC集群的稳定运行和计算资源的可用性。

Description

一种基于异构集群的作业调度系统及方法
技术领域
本发明特别涉及一种基于异构集群的作业调度系统及方法。
背景技术
全球高性能计算TOP500的统计,有90%以上采用的是基于X86架构搭建的集群系统。不过随着高性能计算技术的发展和应用的不断扩大,目前占据市场主流的高性能集群系统在某些高性能计算领域的应用将面临CPU+GPU的强劲挑战。
CPU+GPU异构集群由于硬件产品成熟、实现多元,适用于计算密集型应用,需要细粒度并行算法,能极大提升应用性能。随着图形处理器(GPU)作为一种通用的计算单元出现,越来越多的高性能计算(HPC)用户正在向基于GPU的群集迁移,来运行其科学和工程应用。这种模式允许用户在一个异质计算模型中同时使用CPU和GPU,其中,应用的连续部分在CPU上运行,而计算密集的部分在GPU上运行。通过挖掘GPU的大规模并行能力、用户运行应用程序的速度和传统的基于CPU的模式相比,几乎可以提高40%。
对于在大型异构集群环境中的作业调度,目前业界还没有成熟的参考模型。本发明将针对基于高性能异构计算集群提出一种可实现的作业调度方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种能够有效降低用户成本的基于异构集群的作业调度系统及方法。
本发明是通过如下技术方案实现的:
一种基于异构集群的作业调度系统,其特征在于:包括2台作业调度服务器、n台CPU计算节点服务器、n台GPU计算节点服务器和共享存储设备;采用以太网做集群管理网络,使用infiniband高速网络做计算网络,操作系统采用Redhat linux。
所述作业调度服务器采用开源PBS作业调度软件(openpbs、torque等)。
所述开源PBS作业调度软件采用openpbs或者torque。
本发明基于异构集群的作业调度方法,其特征在于包括以下步骤:
第一步:建立CPU和GPU计算队列,对应后端计算节点服务器进行计算资源的分配;
第二步:结合用户需求,分别建立计算用户,用户计算目录对应到后端共享存储;
第三步:在用户需要进行CPU计算资源时,对CPU资源进行划分,单节点CPU依据核心数量进行资源分配,保证CPU计算节点利用率达到100%;
第四步:在GPU节点上安装CUDA和OpenMPI环境,指定标准环境变量;
第五步:建立异构作业标准PBS模板,可以手动指定CPU和GPU计算资源需求数量;
第六步:异构作业需求用户可以自己编写CUDA程序,编译完成后,使用参考PBS脚本选择计算资源,并将作业提交到GPU队列计算资源池;
第七步:GPU作业同时使用CPU和GPU计算资源进行计算,运行完成后,计算结果输出的共享存储目录。
本发明的有益效果是:该基于异构集群的作业调度系统及方法,通过异构作业调度,实现了异构计算资源的充分利用,并在原有基础上,计算能力提高了40%,从而进一步保证HPC集群的稳定运行和计算资源的可用性。
附图说明
下面结合附图对本发明作进一步的说明。
附图1为本发明结构示意图。
附图2为本发明方法示意图。
具体实施方式
附图为本发明的一种具体实施例。该基于异构集群的作业调度系统,包括2台作业调度服务器、n台CPU计算节点服务器、n台GPU计算节点服务器和共享存储设备;采用以太网做集群管理网络,使用infiniband高速网络做计算网络,操作系统采用Redhat linux。
所述作业调度服务器采用开源PBS作业调度软件(openpbs、torque等)。
所述开源PBS作业调度软件采用openpbs或者torque。
本发明基于异构集群的作业调度方法,其特征在于包括以下步骤:
第一步:建立CPU和GPU计算队列,对应后端计算节点服务器进行计算资源的分配;
第二步:结合用户需求,分别建立计算用户,用户计算目录对应到后端共享存储;
第三步:在用户需要进行CPU计算资源时,对CPU资源进行划分,单节点CPU依据核心数量进行资源分配,保证CPU计算节点利用率达到100%;
第四步:在GPU节点上安装CUDA和OpenMPI环境,指定标准环境变量;
第五步:建立异构作业标准PBS模板,可以手动指定CPU和GPU计算资源需求数量;
第六步:异构作业需求用户可以自己编写CUDA程序,编译完成后,使用参考PBS脚本选择计算资源,并将作业提交到GPU队列计算资源池;
第七步:GPU作业同时使用CPU和GPU计算资源进行计算,运行完成后,计算结果输出的共享存储目录。

Claims (4)

1.一种基于异构集群的作业调度系统,其特征在于:包括2台作业调度服务器、n台CPU计算节点服务器、n台GPU计算节点服务器和共享存储设备;采用以太网做集群管理网络,使用infiniband高速网络做计算网络,操作系统采用Redhat linux。
2.根据权利要求1所述的基于异构集群的作业调度系统,其特征在于:所述作业调度服务器采用开源PBS作业调度软件(openpbs、torque等)。
3.根据权利要求2所述的基于异构集群的作业调度系统,其特征在于:所述开源PBS作业调度软件采用openpbs或者torque。
4.根据权利要求1所述的基于异构集群的作业调度方法,其特征在于包括以下步骤:
第一步:建立CPU和GPU计算队列,对应后端计算节点服务器进行计算资源的分配;
第二步:结合用户需求,分别建立计算用户,用户计算目录对应到后端共享存储;
第三步:在用户需要进行CPU计算资源时,对CPU资源进行划分,单节点CPU依据核心数量进行资源分配,保证CPU计算节点利用率达到100%;
第四步:在GPU节点上安装CUDA和OpenMPI环境,指定标准环境变量;
第五步:建立异构作业标准PBS模板,可以手动指定CPU和GPU计算资源需求数量;
第六步:异构作业需求用户可以自己编写CUDA程序,编译完成后,使用参考PBS脚本选择计算资源,并将作业提交到GPU队列计算资源池;
第七步:GPU作业同时使用CPU和GPU计算资源进行计算,运行完成后,计算结果输出的共享存储目录。
CN201410405297.XA 2014-08-18 2014-08-18 一种基于异构集群的作业调度系统及方法 Pending CN104125165A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410405297.XA CN104125165A (zh) 2014-08-18 2014-08-18 一种基于异构集群的作业调度系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410405297.XA CN104125165A (zh) 2014-08-18 2014-08-18 一种基于异构集群的作业调度系统及方法

Publications (1)

Publication Number Publication Date
CN104125165A true CN104125165A (zh) 2014-10-29

Family

ID=51770433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410405297.XA Pending CN104125165A (zh) 2014-08-18 2014-08-18 一种基于异构集群的作业调度系统及方法

Country Status (1)

Country Link
CN (1) CN104125165A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104301434A (zh) * 2014-10-31 2015-01-21 浪潮(北京)电子信息产业有限公司 一种基于集群的高速通信架构及方法
CN105049485A (zh) * 2015-06-09 2015-11-11 中国石油大学(华东) 一种面向实时视频处理的负载感知云计算系统
CN107040407A (zh) * 2017-03-15 2017-08-11 成都中讯创新科技股份有限公司 一种高性能计算集群动态节点作业方法
CN108319503A (zh) * 2018-02-27 2018-07-24 东莞中子科学中心 分布式异构计算方法及系统
CN108762818A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种优化设计服务器及维护方法
CN110275771A (zh) * 2018-03-15 2019-09-24 中国移动通信集团有限公司 一种业务处理方法、物联网计费基础设施系统及存储介质
CN112214295A (zh) * 2020-09-23 2021-01-12 桂林理工大学 一种多cpu/gpu异构服务器集群的低能耗作业调度方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104301434A (zh) * 2014-10-31 2015-01-21 浪潮(北京)电子信息产业有限公司 一种基于集群的高速通信架构及方法
CN105049485A (zh) * 2015-06-09 2015-11-11 中国石油大学(华东) 一种面向实时视频处理的负载感知云计算系统
CN105049485B (zh) * 2015-06-09 2018-10-16 中国石油大学(华东) 一种面向实时视频处理的负载感知云计算系统
CN107040407A (zh) * 2017-03-15 2017-08-11 成都中讯创新科技股份有限公司 一种高性能计算集群动态节点作业方法
CN107040407B (zh) * 2017-03-15 2020-02-18 成都中讯创新科技股份有限公司 一种高性能计算集群动态节点作业方法
CN108319503A (zh) * 2018-02-27 2018-07-24 东莞中子科学中心 分布式异构计算方法及系统
CN110275771A (zh) * 2018-03-15 2019-09-24 中国移动通信集团有限公司 一种业务处理方法、物联网计费基础设施系统及存储介质
CN110275771B (zh) * 2018-03-15 2021-12-14 中国移动通信集团有限公司 一种业务处理方法、物联网计费基础设施系统及存储介质
CN108762818A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种优化设计服务器及维护方法
CN112214295A (zh) * 2020-09-23 2021-01-12 桂林理工大学 一种多cpu/gpu异构服务器集群的低能耗作业调度方法
CN112214295B (zh) * 2020-09-23 2024-02-06 桂林理工大学 一种多cpu/gpu异构服务器集群的低能耗作业调度方法

Similar Documents

Publication Publication Date Title
CN104125165A (zh) 一种基于异构集群的作业调度系统及方法
CN101587583A (zh) 基于gpu集群的渲染农场
Flores et al. Mobile code offloading: should it be a local decision or global inference?
CN103595773A (zh) 一种基于云桌面的系统性能优化的方法
Kchaou et al. Towards an offloading framework based on big data analytics in mobile cloud computing environments
CN115150471A (zh) 数据处理方法、装置、设备、存储介质及程序产品
US11784946B2 (en) Method for improving data flow and access for a neural network processor
Duolikun et al. Dynamic migration of virtual machines to reduce energy consumption in a cluster
CN104299170B (zh) 间歇性能源海量数据处理方法
Saab et al. Energy efficiency in mobile cloud computing: Total offloading selectively works. does selective offloading totally work?
CN110377411B (zh) 一种面向分布式云的工作流任务调度方法和系统
CN103279328A (zh) 基于Haloop的BlogRank算法并行化处理的构建方法
CN203166994U (zh) 基于云计算的数据服务器
Liu et al. BSPCloud: A hybrid distributed-memory and shared-memory programming model
CN107239341B (zh) 一种资源折算方法、系统及虚拟机资源调度系统
CN105306547A (zh) 提高云计算系统能量有效性的数据摆放及节点调度方法
CN104090813A (zh) 一种云数据中心的虚拟机cpu使用率的分析建模方法
Bagga et al. SPMD based time sharing intelligent approach for image denoising
Thu et al. Cost solving model in computation offloading decision algorithm
CN104463773A (zh) 一种高效输出移动图形的方法及系统
Yonglin et al. Energy-efficient optimization strategy based on elastic data migration in big data streaming platform.
Enokido et al. The Extended Power Consumption Model to Perform Computation Type Application Processes on Virtual Machines
CN202583961U (zh) Ethernet云终端用户桌面连接器
Li et al. Application of PSO algorithm based on improved accelerating convergence in task scheduling of cloud computing environment
Bo Analysis of the Resource Affinity in NUMA Architecture for High Performance Network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141029

WD01 Invention patent application deemed withdrawn after publication