CN104468810A - 一种基于龙芯平台的高性能计算资源监控实现方法 - Google Patents

一种基于龙芯平台的高性能计算资源监控实现方法 Download PDF

Info

Publication number
CN104468810A
CN104468810A CN201410786020.6A CN201410786020A CN104468810A CN 104468810 A CN104468810 A CN 104468810A CN 201410786020 A CN201410786020 A CN 201410786020A CN 104468810 A CN104468810 A CN 104468810A
Authority
CN
China
Prior art keywords
server
controlling vertex
loongson platform
computing node
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410786020.6A
Other languages
English (en)
Inventor
赵瑞东
陈亮甫
吴登勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Chaoyue Numerical Control Electronics Co Ltd
Original Assignee
Shandong Chaoyue Numerical Control Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Chaoyue Numerical Control Electronics Co Ltd filed Critical Shandong Chaoyue Numerical Control Electronics Co Ltd
Priority to CN201410786020.6A priority Critical patent/CN104468810A/zh
Publication of CN104468810A publication Critical patent/CN104468810A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于龙芯平台的高性能计算资源监控实现方法,所述方法采用龙芯多单元服务器的N个服务器构成集群,其中1个服务器作为控制节点、剩余服务器作为计算节点;每个服务器均通过其北桥的PCIE总线扩展高速通信设备infiniband接口,在控制节点与计算节点中对资源监控软件进行修改编译,使其可以适用于龙芯平台,组建可实时监控各个节点的网络,使用户可以在控制节点登陆浏览器查看各个节点的资源占用状态;用户在控制节点中通过OpenMPI中的mpirun指令,将作业分发于各计算节点执行,各计算节点完成作业任务后,由控制节点进行收集,并得出最终的数据处理结果。本发明具有设计科学、使用方便等优点,可在国产化计算机服务器领域尤其是申威平台中实现,便于推广使用,可以应用于陆地、航空、卫星等领域。

Description

一种基于龙芯平台的高性能计算资源监控实现方法
技术领域
本发明涉及计算机服务器通信技术领域,具体涉及一种基于龙芯平台的高性能计算资源监控实现方法。
技术背景
高性能计算(HPC)集群主要是完成大规模的数据计算问题。采用多个节点来共同执行计算任务,以提高信息计算系统的运算效率。目前主要应用于X86平台。而在国产化计算机服务器等自主领域,尤其是龙芯平台中,其运算性能还比较低,与国外先进计算机系统相比还具有较大的差距,而且还没有相关的资源监控策略。因此,在龙芯平台中,采用高性能计算资源监控方法来提高其计算效率、对资源进行实时监控凸显重要。
发明内容
本发明要解决的技术问题是:如何克服现有技术的上述缺陷,提供一种在国产化计算机服务器等自主领域尤其是龙芯平台上实现高性能计算资源监控的方法。
本发明所采用的技术方案为:
一种基于龙芯平台的高性能计算资源监控实现方法,所述方法实现步骤如下: 
1)采用龙芯多单元服务器的N个服务器构成集群,其中1个服务器作为控制节点、剩余服务器作为计算节点;
2)每个服务器均通过其北桥的PCIE总线扩展高速通信设备infiniband接口,并与服务器的infiniband交换机相连,进而构建控制节点与计算节点之间的数据通信网络;
3)在每个服务器的操作系统中配置infiniband通信方式为IPoIB方式,以此来进行并行程序间的数据通信;
4)分别在控制节点与计算节点中修改编译OpenMPI,使其可以在龙芯平台中应用,部署基于OpenMPI的并行程序编译与运行环境;
5)在控制节点与计算节点中对资源监控软件进行修改编译,使其可以适用于龙芯平台,组建可实时监控各个节点的网络,使用户可以在控制节点登陆浏览器查看各个节点的资源占用状态;
6)用户在控制节点中通过OpenMPI中的mpirun指令,将作业分发于各计算节点执行,各计算节点完成作业任务后,由控制节点进行收集,并得出最终的数据处理结果。
所述方法在控制节点中通过修改资源监控软件,部署可用于龙芯平台的web端监控界面、监控管理端(gmetad)、客户端(gmond),并部署gmetad的依赖软件rrdtool及httpd服务等。
所述方法在计算节点中修改专用作业管理软件,部署可用于龙芯平台的客户端(gmond)。
各个计算节点通过gmond收集本机的信息(如:CPU、memeory等),然后将信息数据发送给控制节点中的gmond,控制节点中的gmetad向本机中的gmond请求数据信息,然后存入rrdtool数据库,最后通过web端界面显示出各个节点的资源状态信息,以实现对各个节点的实时监测。
所述服务器为服务器刀片。
本发明的有益效果为:本发明具有设计科学、使用方便等优点,可在国产化计算机服务器领域尤其是申威平台中实现,便于推广使用,可以应用于陆地、航空、卫星等领域。
附图说明
图1为本发明基于龙芯平台的高性能计算的结构框图;
图2为本发明基于龙芯平台的资源监控工作流程图。
具体实施方式
下面参照附图所示,通过具体实施方式对本发明进一步说明:
如图1所示,一种基于龙芯平台的高性能计算资源监控实现方法,所述方法实现步骤如下: 
1)采用龙芯多单元服务器的N个服务器构成集群,其中1个服务器作为控制节点、剩余服务器作为计算节点;
2)每个服务器均通过其北桥的PCIE总线扩展高速通信设备infiniband接口,并与服务器的infiniband交换机相连,进而构建控制节点与计算节点之间的数据通信网络;
3)在每个服务器的操作系统中配置infiniband通信方式为IPoIB方式,以此来进行并行程序间的数据通信;
4)分别在控制节点与计算节点中修改编译OpenMPI,使其可以在龙芯平台中应用,部署基于OpenMPI的并行程序编译与运行环境;
5)在控制节点与计算节点中对资源监控软件进行修改编译,使其可以适用于龙芯平台,组建可实时监控各个节点的网络,使用户可以在控制节点登陆浏览器查看各个节点的资源占用状态;
6)用户在控制节点中通过OpenMPI中的mpirun指令,将作业分发于各计算节点执行,各计算节点完成作业任务后,由控制节点进行收集,并得出最终的数据处理结果。
所述方法在控制节点中通过修改资源监控软件,部署可用于龙芯平台的web端监控界面、监控管理端(gmetad)、客户端(gmond),其中还需部署gmetad的依赖软件rrdtool及httpd服务等。
所述方法在计算节点中修改专用作业管理软件,部署可用于龙芯平台的客户端(gmond)。
如图2所示,各个计算节点通过gmond收集本机的信息(如:CPU、memeory等),然后将信息数据发送给控制节点中的gmond,控制节点中的gmetad向本机中的gmond请求数据信息,然后存入rrdtool数据库,最后通过web端界面显示出各个节点的资源状态信息,以实现对各个节点的实时监测。
所述服务器为服务器刀片。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (5)

1.一种基于龙芯平台的高性能计算资源监控实现方法,其特征在于,所述方法实现步骤如下: 
1)采用龙芯多单元服务器的N个服务器构成集群,其中1个服务器作为控制节点、剩余服务器作为计算节点;
2)每个服务器均通过其北桥的PCIE总线扩展高速通信设备infiniband接口,并与服务器的infiniband交换机相连,进而构建控制节点与计算节点之间的数据通信网络;
3)在每个服务器的操作系统中配置infiniband通信方式为IPoIB方式,以此来进行并行程序间的数据通信;
4)分别在控制节点与计算节点中修改编译OpenMPI,使其可以在龙芯平台中应用,部署基于OpenMPI的并行程序编译与运行环境;
5)在控制节点与计算节点中对资源监控软件进行修改编译,使其可以适用于龙芯平台,组建可实时监控各个节点的网络,使用户可以在控制节点登陆浏览器查看各个节点的资源占用状态;
6)用户在控制节点中通过OpenMPI中的mpirun指令,将作业分发于各计算节点执行,各计算节点完成作业任务后,由控制节点进行收集,并得出最终的数据处理结果。
2.根据权利要求1所述的一种基于龙芯平台的高性能计算资源监控实现方法,其特征在于:在控制节点中通过修改资源监控软件,部署用于龙芯平台的web端监控界面、监控管理端gmetad、客户端gmond,并部署gmetad的依赖软件rrdtool及httpd服务。
3.根据权利要求1或2所述的一种基于龙芯平台的高性能计算资源监控实现方法,其特征在于:在计算节点中修改专用作业管理软件,部署用于龙芯平台的客户端gmond。
4.根据权利要求3所述的一种基于龙芯平台的高性能计算资源监控实现方法,其特征在于:各个计算节点通过gmond收集本机的信息,然后将信息数据发送给控制节点中的gmond,控制节点中的gmetad向本机中的gmond请求数据信息,然后存入rrdtool数据库,最后通过web端界面显示出各个节点的资源状态信息,以实现对各个节点的实时监测。
5.根据权利要求3所述的一种基于龙芯平台的高性能计算资源监控实现方法,其特征在于:所述服务器为服务器刀片。
CN201410786020.6A 2014-12-18 2014-12-18 一种基于龙芯平台的高性能计算资源监控实现方法 Pending CN104468810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410786020.6A CN104468810A (zh) 2014-12-18 2014-12-18 一种基于龙芯平台的高性能计算资源监控实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410786020.6A CN104468810A (zh) 2014-12-18 2014-12-18 一种基于龙芯平台的高性能计算资源监控实现方法

Publications (1)

Publication Number Publication Date
CN104468810A true CN104468810A (zh) 2015-03-25

Family

ID=52914162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410786020.6A Pending CN104468810A (zh) 2014-12-18 2014-12-18 一种基于龙芯平台的高性能计算资源监控实现方法

Country Status (1)

Country Link
CN (1) CN104468810A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681103A (zh) * 2016-03-03 2016-06-15 山东超越数控电子有限公司 一种基于龙芯平台的集群资源监控实现方法
CN107045467A (zh) * 2017-02-07 2017-08-15 郑州云海信息技术有限公司 一种整机柜远程监控节点系统测试状态的方法
CN108614732A (zh) * 2016-12-09 2018-10-02 中标软件有限公司 龙芯平台动态前景下的操作系统硬件设备快速映射方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010049740A1 (en) * 2000-03-22 2001-12-06 Karpoff Wayne T. Method and system for providing multimedia information on demand over wide area networks
CN1704921A (zh) * 2004-04-15 2005-12-07 雷西昂公司 高性能计算系统和方法
CN102724311A (zh) * 2012-06-18 2012-10-10 苏州超集信息科技有限公司 工作站集群系统
CN104199801A (zh) * 2014-08-26 2014-12-10 山东超越数控电子有限公司 一种基于龙芯服务器的高性能计算集群的实现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010049740A1 (en) * 2000-03-22 2001-12-06 Karpoff Wayne T. Method and system for providing multimedia information on demand over wide area networks
CN1704921A (zh) * 2004-04-15 2005-12-07 雷西昂公司 高性能计算系统和方法
CN102724311A (zh) * 2012-06-18 2012-10-10 苏州超集信息科技有限公司 工作站集群系统
CN104199801A (zh) * 2014-08-26 2014-12-10 山东超越数控电子有限公司 一种基于龙芯服务器的高性能计算集群的实现方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681103A (zh) * 2016-03-03 2016-06-15 山东超越数控电子有限公司 一种基于龙芯平台的集群资源监控实现方法
CN108614732A (zh) * 2016-12-09 2018-10-02 中标软件有限公司 龙芯平台动态前景下的操作系统硬件设备快速映射方法
CN108614732B (zh) * 2016-12-09 2021-07-09 中标软件有限公司 龙芯平台动态前景下的操作系统硬件设备快速映射方法
CN107045467A (zh) * 2017-02-07 2017-08-15 郑州云海信息技术有限公司 一种整机柜远程监控节点系统测试状态的方法

Similar Documents

Publication Publication Date Title
US10284623B2 (en) Optimized browser rendering service
TWI547817B (zh) 叢集運算架構的資源規劃方法、系統及裝置
CN105550268A (zh) 大数据流程建模分析引擎
CN103186834A (zh) 业务流程配置方法和装置
CN106462561B (zh) 优化浏览器渲染过程
CN105260388A (zh) 一种分布式垂直爬虫服务系统的优化方法
CN102789394B (zh) 一种并行处理消息的方法、装置、节点及服务器集群
CN102946411A (zh) 网络同步系统
CN103605848A (zh) 路径分析方法和装置
US10326824B2 (en) Method and system for iterative pipeline
CN104468810A (zh) 一种基于龙芯平台的高性能计算资源监控实现方法
CN114021156A (zh) 漏洞自动化聚合的整理方法、装置、设备以及存储介质
CN104320460A (zh) 一种大数据处理方法
CN106101710A (zh) 一种分布式视频转码方法及装置
CN103530369A (zh) 一种去重方法及系统
CN104750849A (zh) 用于维护基于树形结构的目录关系的方法和系统
CN104717286B (zh) 数据处理方法、终端、服务器和系统
Zhang et al. GP-SWAT (v1. 0): A two-layer graph-based parallel simulation framework for the SWAT model
US20210311843A1 (en) System verification program generation device, system verification program generation method, and recording medium storing system verification program generation program
JP2021118004A (ja) グラフ計算の処理方法、装置、電子機器及び記憶媒体
CN111538593A (zh) 一种基于工业互联网操作系统的数据采集方法
CN104219285A (zh) 确定云平台中通信代理节点和虚拟机的映射关系的方法
US12021997B2 (en) Blockchain tokenization of aircraft and other complex machinery
CN118313628B (zh) 车间资源配置方案生成方法和装置、电子设备及存储介质
CN104268014A (zh) 一种基于申威平台的高性能计算作业管理实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150325

RJ01 Rejection of invention patent application after publication