CN110737489A - 一种智能型高性能计算中心 - Google Patents

一种智能型高性能计算中心 Download PDF

Info

Publication number
CN110737489A
CN110737489A CN201910948712.9A CN201910948712A CN110737489A CN 110737489 A CN110737489 A CN 110737489A CN 201910948712 A CN201910948712 A CN 201910948712A CN 110737489 A CN110737489 A CN 110737489A
Authority
CN
China
Prior art keywords
layer
operating system
resources
computing
infrastructure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910948712.9A
Other languages
English (en)
Inventor
张军
邢强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhongxun Polytron Technologies Inc Innovation
Original Assignee
Chengdu Zhongxun Polytron Technologies Inc Innovation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhongxun Polytron Technologies Inc Innovation filed Critical Chengdu Zhongxun Polytron Technologies Inc Innovation
Priority to CN201910948712.9A priority Critical patent/CN110737489A/zh
Publication of CN110737489A publication Critical patent/CN110737489A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4482Procedural
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种智能型高性能计算中心,所述计算中心依次包括基础设施层、IT设备层、操作系统层、资源管理层、应用层、人机交互层;其中:基础设施层将经过虚拟化的计算资源、存储资源和网络资源以基础设施即服务的方式通过网络提供给IT设备层采集层;IT设备层接收基础设施层的资源进行整合并发送至操作系统层;操作系统层接收IT设备层的资源并为资源管理层的应用提供服务,还包括HPCOS和IB无盘;HPCOS安装在管理、登录、编译功能的节点上,用于提供基础的操作系统和操作系统镜像、IB无盘将管理节点上的操作系统镜像通过PXE分配给计算节点,计算节点通过加载镜像后进入工作状态。

Description

一种智能型高性能计算中心
技术领域
本发明属于计算机领域,涉及一种智能型高性能计算中心。
背景技术
随着信息化社会的飞速发展,高性能计算已成为继理论科学和实验科学之后科学研究的第三大支柱。高性能计算在工程计算、科学研究、遗传基因以及金融风险分析中已经取得了巨大的成就。高性能计算历经几十年的发展,如今不仅是作为实验和理论以外的第三大科学研究手段,而且可以被当作是一个国家综合国力的主要评价标准。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
一般都会根据业务、服务的不同将计算集群分为云计算分区和高性能计算分区,云计算分区运行云操作系统,应用于云计算服务,而高性能计算分区则运行高性能作业调度系统,应用于高性能计算服务。当高性能计算业务不忙而云计算业务比较紧张的时候,如果按照以往计算中心常规的分区划分方式,那么将会出现高性能计算资源闲置的情况,因此需要找到一个更好的合理分配使用超级计算中心计算资源的技术。
发明内容
本发明的目的在于:提供了一种智能型高性能计算中心,解决了上述问题的不足。
本发明采用的技术方案如下:
一种智能型高性能计算中心,所述计算中心依次包括基础设施层、IT设备层、操作系统层、资源管理层、应用层、人机交互层;
其中:基础设施层将经过虚拟化的计算资源、存储资源和网络资源以基础设施即服务的方式通过网络提供给IT设备层采集层;IT设备层接收基础设施层的资源进行整合并发送至操作系统层;
操作系统层接收IT设备层的资源并为资源管理层的应用提供服务,还包括HPCOS和IB无盘;HPCOS安装在管理、登录、编译功能的节点上,用于提供基础的操作系统和操作系统镜像、IB无盘将管理节点上的操作系统镜像通过PXE分配给计算节点,计算节点通过加载镜像后进入工作状态;
资源管理层是对操作系统层提供的计算、存储资源进行调度和管理;还包括作业调度模块,作业调度模块对计算作业进行资源管理和分配。节点控制模块根据策略动态调整计算节点开机数量。硬件设备/操作系统监控将底层资源的详细工况进行采集和记录,并以WEB方式对外展现。用户管理对集群的使用用户进行名称、密码、数据存储位置的管理。配额管理模块配合用户管理,对用户所能占用的存储空间进行合理分配。
应用层将包括计算软件、基础软件、应用Portal和结果分析模块;
人机交互层是系统使用者与系统进行交互操作的平台,主要包括B/S架构的图形界面、用于监控信息查看、桌面操作;B/S架构的文件传输、用于上传、下载文件到集群;SSH客户端、三方的SSH连接工具。
本发明为了解决传统问题的不足,采用HPCOS安装在管理、登录、编译功能的节点上,用于提供基础的操作系统和操作系统镜像、IB无盘将管理节点上的操作系统镜像通过PXE分配给计算节点,计算节点通过加载镜像后进入工作状态;系统能防止用户非法登录;未授权的人员不能阅读或者修改相应权限的信息和数据,而授权人员可按权限要求进行正确访问。
进一步地,所述计算软件包括VASP、G09、ANSYS、FLUENT、CFX、MATLAB、FEKO、WRF、Lammps。
进一步地,所述基础软件为提供集群基础运行环境的软件,包括编译器、MPI、数学库。
进一步地,所述应用portal为用户提供标准化的作业提交界面。系统易理解、易学习、易操作、界面清晰美观,各元素分布合理,界面风格、字体、颜色、操作方式等一致,给用户一种良好的感观效果。
进一步地,所述结果分析为使用者提供辅助的计算结果分析工具。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.信息安全性方面:系统能防止用户非法登录;未授权的人员不能阅读或者修改相应权限的信息和数据,而授权人员可按权限要求进行正确访问。
2.可靠性方面:对系统运行中可能出现的各种异常情况和突发事件有相应的应急手段,保证系统安全性的同时可正常工作。
3.易用性方面:系统易理解、易学习、易操作、界面清晰美观,各元素分布合理,界面风格、字体、颜色、操作方式等一致,给用户一种良好的感观效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图,其中:
图1是本发明系统流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
一种智能型高性能计算中心,所述计算中心依次包括基础设施层、IT设备层、操作系统层、资源管理层、应用层、人机交互层;其中:基础设施层将经过虚拟化的计算资源、存储资源和网络资源以基础设施即服务的方式通过网络提供给IT设备层采集层;IT设备层接收基础设施层的资源进行整合并发送至操作系统层;操作系统层接收IT设备层的资源并为资源管理层的应用提供服务,还包括HPCOS和IB无盘;HPCOS安装在管理、登录、编译功能的节点上,用于提供基础的操作系统和操作系统镜像、IB无盘将管理节点上的操作系统镜像通过PXE分配给计算节点,计算节点通过加载镜像后进入工作状态;资源管理层是对操作系统层提供的计算、存储资源进行调度和管理;还包括作业调度模块,作业调度模块对计算作业进行资源管理和分配。应用层将包括计算软件、基础软件、应用Portal和结果分析模块;人机交互层是系统使用者与系统进行交互操作的平台,主要包括B/S架构的图形界面、B/S架构的文件传输、SSH客户端。
工作时:进行系统检测;首先通过节点部署,在管理节点上安装最新的CentOS 7.6操作系统,然后部署SCCS软件平台。记录开始时间A,依次将200个节点进行开机,通过网络获取节点软件进行自动部署;在管理节点上通过pestat可以看到所有节点在线,记录结束时间B。开始于结束之间不超过8小时。
下面结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
本发明较佳实施例提供的一种智能型高性能计算中心所述计算软件包括VASP、G09、ANSYS、FLUENT、CFX、MATLAB、FEKO、WRF、Lammps。所述基础软件为提供集群基础运行环境的软件,包括编译器、MPI、数学库。
工作时:通过以下步骤进行系统检测;
首先单独部署1套理论计算峰值20TFlops的系统(7个3.2TFlops能力的节点),通过intel自带linpack测试工具进行所有节点汇总测试,实测Linpack不低于18T,实现效率不低于80%的目标;
其次通过df–h查看共享存储系统有效容量,有效容量不低于100TB;通过ls/zonsure/soft/bin查看已有作业提交工具,其数量不低于20个。并测试每个工具均能正常提交任务进行计算;部署一套EDR Infiniband网络,通过ib_write_bw和ib_reade_bw进行测试,实测带宽满足100Gbps要求;
最后通过单机200并发ssh用户登录,和200个客户端节点,每节点1个ssh登录,均登录顺利且操作流畅。
实施例二
本实施例在实施例一的基础上,所述应用portal为用户提供标准化的作业提交界面。系统易理解、易学习、易操作、界面清晰美观,各元素分布合理,界面风格、字体、颜色、操作方式等一致,给用户一种良好的感观效果。所述结果分析为使用者提供辅助的计算结果分析工具。
工作时:系统易理解、易学习、易操作、界面清晰美观,各元素分布合理,界面风格、字体、颜色、操作方式等一致,给用户一种良好的感观效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明的保护范围,任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种智能型高性能计算中心,其特征在于:所述计算中心依次包括基础设施层、IT设备层、操作系统层、资源管理层、应用层、人机交互层;
其中:基础设施层将经过虚拟化的计算资源、存储资源和网络资源以基础设施即服务的方式通过网络提供给IT设备层采集层;IT设备层接收基础设施层的资源进行整合并发送至操作系统层;
操作系统层接收IT设备层的资源并为资源管理层的应用提供服务,还包括HPCOS和IB无盘;HPCOS安装在管理、登录、编译功能的节点上,用于提供基础的操作系统和操作系统镜像、IB无盘将管理节点上的操作系统镜像通过PXE分配给计算节点,计算节点通过加载镜像后进入工作状态;
资源管理层是对操作系统层提供的计算、存储资源进行调度和管理;还包括作业调度模块,作业调度模块对计算作业进行资源管理和分配。应用层将包括计算软件、基础软件、应用Portal和结果分析模块;
人机交互层是系统使用者与系统进行交互操作的平台,主要包括B/S架构的图形界面、B/S架构的文件传输、SSH客户端。
2.根据权利要求1所述的一种智能型高性能计算中心,其特征在于:所述计算软件包括VASP、G09、ANSYS、FLUENT、CFX、MATLAB、FEKO、WRF、Lammps。
3.根据权利要求1所述的一种智能型高性能计算中心,其特征在于:所述基础软件为提供集群基础运行环境的软件,包括编译器、MPI、数学库。
4.根据权利要求1所述的一种智能型高性能计算中心,其特征在于:所述应用portal为用户提供标准化的作业提交界面。
5.根据权利要求1所述的一种智能型高性能计算中心,其特征在于:所述结果分析为使用者提供辅助的计算结果分析工具。
CN201910948712.9A 2019-10-08 2019-10-08 一种智能型高性能计算中心 Pending CN110737489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910948712.9A CN110737489A (zh) 2019-10-08 2019-10-08 一种智能型高性能计算中心

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910948712.9A CN110737489A (zh) 2019-10-08 2019-10-08 一种智能型高性能计算中心

Publications (1)

Publication Number Publication Date
CN110737489A true CN110737489A (zh) 2020-01-31

Family

ID=69268565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910948712.9A Pending CN110737489A (zh) 2019-10-08 2019-10-08 一种智能型高性能计算中心

Country Status (1)

Country Link
CN (1) CN110737489A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611723A (zh) * 2011-01-25 2012-07-25 赵天海 一种基于虚拟化技术构建高性能计算应用服务的方法
US20120324456A1 (en) * 2011-06-16 2012-12-20 Microsoft Corporation Managing nodes in a high-performance computing system using a node registrar
US20170078464A1 (en) * 2015-09-15 2017-03-16 Intel Corporation System for sound capture and generation via nasal vibration
CN107040407A (zh) * 2017-03-15 2017-08-11 成都中讯创新科技股份有限公司 一种高性能计算集群动态节点作业方法
CN107528735A (zh) * 2017-09-01 2017-12-29 苏州云联智慧信息技术应用有限公司 基于空间分析的大数据分析平台
CN109710381A (zh) * 2018-12-27 2019-05-03 北京联创信安科技股份有限公司 高性能计算、大数据、虚拟化特殊容器管理系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611723A (zh) * 2011-01-25 2012-07-25 赵天海 一种基于虚拟化技术构建高性能计算应用服务的方法
US20120324456A1 (en) * 2011-06-16 2012-12-20 Microsoft Corporation Managing nodes in a high-performance computing system using a node registrar
US20170078464A1 (en) * 2015-09-15 2017-03-16 Intel Corporation System for sound capture and generation via nasal vibration
CN107040407A (zh) * 2017-03-15 2017-08-11 成都中讯创新科技股份有限公司 一种高性能计算集群动态节点作业方法
CN107528735A (zh) * 2017-09-01 2017-12-29 苏州云联智慧信息技术应用有限公司 基于空间分析的大数据分析平台
CN109710381A (zh) * 2018-12-27 2019-05-03 北京联创信安科技股份有限公司 高性能计算、大数据、虚拟化特殊容器管理系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
佚名: "HPC集群平台搭建概念", 《HTTPS://BLOG.CSDN.NET/GUGUGUJIAWEI/ARTICLE/DETAILS/44592049》 *
刘川意等: "一种基础设施云系统――YUN", 《中兴通讯技术》 *
王彬: "一个精细粒度实时计算资源管理系统", 《应用气象学报》 *
袁文成: "面向IaaS云计算自适应资源管理机制", 《万方》 *

Similar Documents

Publication Publication Date Title
US8171132B2 (en) Provisioning grid services to maintain service level agreements
CN109034396B (zh) 用于处理分布式集群中的深度学习作业的方法和装置
US8185905B2 (en) Resource allocation in computing systems according to permissible flexibilities in the recommended resource requirements
CN109408205B (zh) 基于hadoop集群的任务调度方法和装置
EP1654649B1 (en) On demand node and server instance allocation and de-allocation
CN105760519B (zh) 一种集群文件系统及其文件锁分配方法
WO2012134017A1 (ko) 클라우드 스토리지 시스템에서 리소스를 고려한 자료분배방법 및 장치
US20050038789A1 (en) On demand node and server instance allocation and de-allocation
US20210255899A1 (en) Method for Establishing System Resource Prediction and Resource Management Model Through Multi-layer Correlations
CN116662020B (zh) 应用服务动态管理方法、系统、电子设备及存储介质
CN112905334A (zh) 资源管理方法、装置、电子设备和存储介质
CN111464331B (zh) 一种线程创建的控制方法、系统及终端设备
CN113255165A (zh) 一种基于动态任务分配的实验方案并行推演系统
CN112764909B (zh) 一种基于云架构工作站的共享方法及系统
CN114546587A (zh) 一种在线图像识别服务的扩缩容方法及相关装置
CN110737489A (zh) 一种智能型高性能计算中心
CN109445710A (zh) 基于云服务器存储的云端数据存储陈列方法及系统
CN111435319A (zh) 一种集群的管理方法及装置
CN111381921B (zh) 一种基于Ambari的前后端分离系统和方法
CN114237902A (zh) 一种服务部署方法、装置、电子设备及计算机可读介质
US20160110219A1 (en) Managing i/o operations in a shared file system
CN106844021B (zh) 计算环境资源管理系统及其管理方法
Monniot et al. StorAlloc: A Simulator for Job Scheduling on Heterogeneous Storage Resources
KR101092359B1 (ko) 그리드 작업 스케줄링 장치 및 방법
CN110493071A (zh) 消息系统资源均衡装置、方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200131

RJ01 Rejection of invention patent application after publication