CN103136086A - 超级并行计算机的插框级紧耦合监控管理系统 - Google Patents

超级并行计算机的插框级紧耦合监控管理系统 Download PDF

Info

Publication number
CN103136086A
CN103136086A CN2013100711795A CN201310071179A CN103136086A CN 103136086 A CN103136086 A CN 103136086A CN 2013100711795 A CN2013100711795 A CN 2013100711795A CN 201310071179 A CN201310071179 A CN 201310071179A CN 103136086 A CN103136086 A CN 103136086A
Authority
CN
China
Prior art keywords
monitoring management
monitoring
computation module
interface
supper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100711795A
Other languages
English (en)
Inventor
蒋句平
李宝峰
徐炜遐
田宝华
郑明玲
张晓明
李小芳
邢建英
袁远
孙言强
陈旭
罗煜峰
胡积平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN2013100711795A priority Critical patent/CN103136086A/zh
Publication of CN103136086A publication Critical patent/CN103136086A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一种超级并行计算机的插框级紧耦合监控管理系统,包含若干个计算组件、监控管理组件以及背板,所有计算组件和监控管理组件均连接至背板,并通过背板实现接口到接口的紧耦合直连结构;所述监控管理组件用来对所有计算组件进行实时监控管理,并通过网络接口接入系统管理网络。本发明具有结构简单、成本低廉、实时性好、可靠性高等优点。

Description

超级并行计算机的插框级紧耦合监控管理系统
技术领域
本发明主要涉及到高性能计算、超级并行计算机系统监控和管理技术领域,特指一种超级并行计算机的插框级紧耦合监控管理系统。
背景技术
随着应用水平的持续提高和应用领域的不断拓展,当前超级并行计算机的计算能力已经跨越千万亿次,正在从万万亿次向十万万亿次甚至百万万亿次推进。系统规模的快速扩张带动了系统组件,尤其是计算结点数量的大幅增长。2012年11月公布的第40期世界超级并行计算机系统TOP500排名榜上,位列第一位的Cray Titan系统的计算结点数量达到了18688个,而第二位的IBM Sequoia的计算结点数量更是达到了惊人的98304个。
海量系统组件给超级并行计算机系统的监控管理带来极大困难,超级并行计算机系统常使用插框级的监控管理系统。当前,插框级的监控管理系统主要有两种:
第一种,总线式监控管理系统。如图1所示,插框内包含计算组件、监控管理组件、背板等。计算组件上设置监控代理;监控代理通过I2C/SMBus、JTAG、UART、GPIO等监控管理接口连接计算组件上的监控管理部件,提供系统管理总线接口通过背板接入插框监控管理系统,负责接受、解析、执行监控管理组件的监控管理命令,执行完毕返回执行结果,同时负责将计算组件的当前异常情况主动上报给监控管理组件。监控管理组件通过系统管理总线接口接入插框监控管理系统,实现对所有计算组件的监控管理。常见的系统管理总线有IPMB及其他定制总线,常见的监控代理芯片有BMC、IPMC等。
第二种,松散式监控管理系统。如图2所示,与总线式监控管理系统类似,计算组件上设置监控代理;监控代理连接计算组件上的监控管理部件的方式和接口均相同,但对外提供网络接口通过线缆或背板等方式接入系统管理网络。监控管理服务器负责对所有计算组件进行监控管理,通过网络接口接入系统管理网络。若通过背板连接,则一般情况下需要插框内提供网络交换机组件,所有监控代理连接至该交换机,并通过交换机上连到系统管理网络。监控管理服务器可选择放置或不放置在插框内。
但上述两种插框级监控管理系统都存在缺点。总线式监控管理系统受限于总线架构,不可避免地存在总线竞争问题,从而导致监控管理的实时性和可靠性较低。松散式监控管理系统则一方面因为需要大量的线缆和交换机而成本较高,另一方面监控管理服务器一般面向全系统而非某个插框进行管理,管理任务繁重,不仅实时性较低,而且易造成由于监控管理服务器故障而引发系统故障的严重后果。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种结构简单、成本低廉、实时性好、可靠性高的超级并行计算机的插框级紧耦合监控管理系统。
为解决上述技术问题,本发明采用以下技术方案:
一种超级并行计算机的插框级紧耦合监控管理系统,包含背板以及若干个计算组件、监控管理组件,所有计算组件和监控管理组件均连接至背板并通过背板实现接口到接口的紧耦合直连结构;所述监控管理组件用来对所有计算组件进行实时监控管理,并通过网络接口接入系统管理网络。
作为本发明的进一步改进:
所述计算组件上设置有:
若干种类型的监控管理部件,用来对计算组件的运行状态进行实时监控;
一条以上边界扫描测试链路,用来对计算组件进行调试诊断功能;
UART控制器,用来实现计算组件软件系统的交互功能;
若干GPIOs引腿,用来实现对计算组件的控制、异常检测和上报功能。
所述监控管理部件通过I2C/SMBus总线与计算组件的温度监控、电源监控、风机监控部件相连。
所述边界扫描测试链路采用JTAG边界扫描链,所有JTAG边界扫描链均通过JTAG链切换设备连接至JTAG接口。
所述I2C/SMBus总线、JTAG接口、UART、GPIOs均通过背板最终连接到监控管理组件的相应接口上。
所述监控管理组件采用嵌入式系统,所述监控管理组件包含嵌入式CPU、FLASH、RAM、UART扩展设备、JTAG控制器、I2C控制器、GPIO扩展设备以及网络控制器;所述嵌入式CPU是监控管理组件的核心,用来执行监控管理操作;所述FLASH负责存储嵌入式系统的Firmware及其它配置信息;所述RAM是嵌入式系统的内存,用来存储嵌入式操作系统和应用程序的运行数据;所述UART扩展设备为每个计算组件提供独立的UART通道;所述JTAG控制器负责执行边界扫描调试诊断操作,为每个计算组件提供独立的JTAG接口;所述I2C控制器为每个计算组件提供独立的I2C/SMBus接口;所述GPIO扩展设备为每个计算组件提供所需的GPIO控制和检测接口;所述网络控制器用来实现监控管理组件接入系统管理网络。
与现有技术相比,本发明的优点在于:
1、本发明的实时性高。本发明为每个计算组件都提供了独立的I2C/SMBus、JTAG、UART、GPIO等接口,直接连接计算组件上的监控管理部件,省去了监控代理的中转时间,同时独立的通道意味着多个计算组件信息可并行访问,从而提供了较强的实时性。
2、本发明的可靠性高。本发明中摒弃了监控代理,采用监控管理组件直接控制计算组件上的监控管理部件的方式,减少了硬件通路上的设备,有效避免了因监控代理故障而产生的计算组件监控管理故障。
3、本发明的成本低。本发明省去了监控代理的成本,同时减少了网络线缆和交换机设备的使用数量,从而拥有较低的实现成本。
附图说明
图1是现有总线式插框监控管理系统的结构示意图。
图2是现有松散式插框监控管理系统的结构示意图。
图3是本发明监控管理系统的结构示意图。
图4是本发明中计算组件上所设置的监控管理结构示意图。
图5是本发明中监控管理组件的监控管理结构示意图。
图6是本发明在具体应用实例中所采用的监控管理软件的结构示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图3所示,本发明的超级并行计算机的插框级紧耦合监控管理系统,包含背板以及若干个计算组件、监控管理组件,所有计算组件和监控管理组件均连接至背板并通过背板实现接口到接口的紧耦合直连结构;监控管理组件负责对插框内的所有计算组件进行实时监控管理,并通过网络接口接入系统管理网络,实现对外通信。
本发明的计算组件上设置一定数量的不同类型的监控管理部件、1条或多条边界扫描测试链路、UART控制器以及一定数量的GPIOs引腿;监控管理部件负责对计算组件的运行状态,例如温度、电压、电流等进行实时监控,边界扫描测试链路用来对计算组件进行调试诊断功能,UART控制器用来实现计算组件软件系统的交互功能,GPIO引腿用来实现对计算组件的控制、异常检测和上报功能。如图4所示,本实施例中,所有温度监控、电源监控、风机监控部件均连接至I2C/SMBus总线,所有JTAG边界扫描链均通过JTAG链切换设备连接至JTAG接口,计算组件的UART控制器提供UART接口,所有加/切电、复位、中断等控制信号均通过GPIO引出。I2C/SMBus、JTAG、UART、GPIOs均通过背板最终连接到监控管理组件的相应接口上。
如图5所示,本发明的监控管理组件采用嵌入式系统设计,包含嵌入式CPU、FLASH、RAM、UART扩展设备、JTAG控制器、I2C控制器、GPIO扩展设备、网络控制器等。嵌入式CPU是监控管理组件的核心,负责执行监控管理操作, 其他所有设备均通过相应接口连接至嵌入式CPU;FLASH负责存储嵌入式系统的Firmware及其它配置信息;RAM是嵌入式系统的内存,存储嵌入式操作系统和应用程序的运行数据;UART扩展设备为每个计算组件提供独立的UART通道;JTAG控制器负责执行边界扫描调试诊断操作,为每个计算组件提供独立的JTAG接口;I2C控制器为每个计算组件提供独立的I2C/SMBus接口,实现计算组件运行状态的实时监控;GPIO扩展设备为每个计算插件提供所需的GPIO控制和检测接口;网络控制器负责实现监控管理组件接入系统管理网络。
本发明在具体应用过程中,可采用如图6所示的监控管理软件结构图。监控管理软件运行在监控管理组件之上,实现各种监控、管理策略和方法。监控管理软件由系统层和应用层组成:1、系统层软件:包括boot loader软件、嵌入式操作系统、中断处理程序、硬件驱动程序等;2、应用层软件:包括嵌入式Web服务器、监控服务器、串口终端控制台服务器、控制台重定向服务器、边界扫描诊断测试服务器等软件。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (6)

1.一种超级并行计算机的插框级紧耦合监控管理系统,其特征在于:包含背板以及若干个计算组件、监控管理组件,所有计算组件和监控管理组件均连接至背板并通过背板实现接口到接口的紧耦合直连结构;所述监控管理组件用来对所有计算组件进行实时监控管理,并通过网络接口接入系统管理网络。
2.根据权利要求1所述的超级并行计算机的插框级紧耦合监控管理系统,其特征在于,所述计算组件上设置有:
若干种类型的监控管理部件,用来对计算组件的运行状态进行实时监控;
一条以上边界扫描测试链路,用来对计算组件进行调试诊断功能;
UART控制器,用来实现计算组件软件系统的交互功能;
若干GPIOs引腿,用来实现对计算组件的控制、异常检测和上报功能。
3.根据权利要求2所述的超级并行计算机的插框级紧耦合监控管理系统,其特征在于,所述监控管理部件通过I2C/SMBus总线与计算组件的温度监控、电源监控、风机监控部件相连。
4.根据权利要求3所述的超级并行计算机的插框级紧耦合监控管理系统,其特征在于,所述边界扫描测试链路采用JTAG边界扫描链,所有JTAG边界扫描链均通过JTAG链切换设备连接至JTAG接口。
5.根据权利要求4所述的超级并行计算机的插框级紧耦合监控管理系统,其特征在于,所述I2C/SMBus总线、JTAG接口、UART、GPIOs均通过背板最终连接到监控管理组件的相应接口上。
6.根据权利要求1~5中任意一项所述的超级并行计算机的插框级紧耦合监控管理系统,其特征在于,所述监控管理组件采用嵌入式系统,所述监控管理组件包含嵌入式CPU、FLASH、RAM、UART扩展设备、JTAG控制器、I2C控制器、GPIO扩展设备以及网络控制器;所述嵌入式CPU是监控管理组件的核心,用来执行监控管理操作;所述FLASH负责存储嵌入式系统的Firmware及其它配置信息;所述RAM是嵌入式系统的内存,用来存储嵌入式操作系统和应用程序的运行数据;所述UART扩展设备为每个计算组件提供独立的UART通道;所述JTAG控制器负责执行边界扫描调试诊断操作,为每个计算组件提供独立的JTAG接口;所述I2C控制器为每个计算组件提供独立的I2C/SMBus接口;所述GPIO扩展设备为每个计算组件提供所需的GPIO控制和检测接口;所述网络控制器用来实现监控管理组件接入系统管理网络。
CN2013100711795A 2013-03-06 2013-03-06 超级并行计算机的插框级紧耦合监控管理系统 Pending CN103136086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100711795A CN103136086A (zh) 2013-03-06 2013-03-06 超级并行计算机的插框级紧耦合监控管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100711795A CN103136086A (zh) 2013-03-06 2013-03-06 超级并行计算机的插框级紧耦合监控管理系统

Publications (1)

Publication Number Publication Date
CN103136086A true CN103136086A (zh) 2013-06-05

Family

ID=48495937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100711795A Pending CN103136086A (zh) 2013-03-06 2013-03-06 超级并行计算机的插框级紧耦合监控管理系统

Country Status (1)

Country Link
CN (1) CN103136086A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107846149A (zh) * 2016-09-20 2018-03-27 维谛技术有限公司 一种双工况嵌入式通信电源升级插框

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719798A (zh) * 2004-07-07 2006-01-11 华为技术有限公司 多插框互联系统
US20080189573A1 (en) * 2007-02-02 2008-08-07 Darrington David L Fault recovery on a massively parallel computer system to handle node failures without ending an executing job
CN102073521A (zh) * 2011-01-06 2011-05-25 深圳市朗驰欣创科技有限公司 一种插卡式机器软件升级系统及软件升级方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719798A (zh) * 2004-07-07 2006-01-11 华为技术有限公司 多插框互联系统
US20080189573A1 (en) * 2007-02-02 2008-08-07 Darrington David L Fault recovery on a massively parallel computer system to handle node failures without ending an executing job
CN102073521A (zh) * 2011-01-06 2011-05-25 深圳市朗驰欣创科技有限公司 一种插卡式机器软件升级系统及软件升级方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107846149A (zh) * 2016-09-20 2018-03-27 维谛技术有限公司 一种双工况嵌入式通信电源升级插框

Similar Documents

Publication Publication Date Title
CN103473167B (zh) 服务器的故障显示方法及装置
CN101126952B (zh) 用于计算机系统电源初始化的远程监控模块
CN102571498B (zh) 故障注入控制方法和装置
CN103064769B (zh) 双热备服务器系统
CN102386642A (zh) 用于电池包的控制系统、通讯系统的自诊断以及重构方法
CN104838373A (zh) 基于单个微控制器的多个计算节点管理
CN112286709A (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN109236714A (zh) 风扇控制电路及风扇控制系统
CN103605596A (zh) 用于atca刀片上的fpga芯片与bmc芯片协同电源管理系统和方法
CN109240953A (zh) 一种自适应切换硬盘的方法、转接板及系统
CN101179748B (zh) 一种atca体系中的配置和测试方法及系统
CN103019905A (zh) 一种基板管理控制器及其数据处理方法
CN113918383A (zh) 核心板复位方法、装置、设备、存储介质以及程序产品
CN103136086A (zh) 超级并行计算机的插框级紧耦合监控管理系统
CN111737077B (zh) 一种服务器板卡防烧板监控系统
CN101458624B (zh) 可编程逻辑器件的加载方法、处理器和装置
CN102541705B (zh) 计算机的测试方法和工装板
CN108647124A (zh) 一种存储跳变信号的方法及其装置
Zhao et al. A risk assessment method for cascading failure caused by electric cyber-physical system (ECPS)
CN109446002A (zh) 一种用于服务器抓取sata硬盘的治具板、系统及方法
US20070204088A1 (en) Modularized circuit board bus connection control method and system
CN104283943A (zh) 一种集群服务器的通信优化方法
KR20230064270A (ko) 직류 송배전망용 고속 제어 플랫폼 장치, 방법 및 시스템
CN107291206A (zh) 一种主板与bbu的互联架构
CN103163451A (zh) 面向超级计算系统的自选通边界扫描调测试方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130605