CN105975378A - 一种面向超级计算机的分布式层次化自主监控管理系统 - Google Patents

一种面向超级计算机的分布式层次化自主监控管理系统 Download PDF

Info

Publication number
CN105975378A
CN105975378A CN201610307721.6A CN201610307721A CN105975378A CN 105975378 A CN105975378 A CN 105975378A CN 201610307721 A CN201610307721 A CN 201610307721A CN 105975378 A CN105975378 A CN 105975378A
Authority
CN
China
Prior art keywords
information
node
management
strategy
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610307721.6A
Other languages
English (en)
Inventor
王纪军
谭晶
高莉莎
张辉
徐宏志
梁俊锋
李兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Beijing China Power Information Technology Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Beijing China Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd, Beijing China Power Information Technology Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN201610307721.6A priority Critical patent/CN105975378A/zh
Publication of CN105975378A publication Critical patent/CN105975378A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种面向超级计算机的分布式层次化自主监控管理系统,将大规模超级计算机管理系统进行逻辑分区;在分区内部通过构建多层次自主元素实现自主管理。监控管理系统MMS实现对系统资源管理,告警信息管理和系统配置信息的管理,系统管理员通过监控管理软件可以了解系统当前的健康状况、使用情况和功耗及运行环境状态。同时系统采用统一监控管理策略从而实现统一的分布式管理。

Description

一种面向超级计算机的分布式层次化自主监控管理系统
技术领域
本发明涉及分布式计算管理领域,具体来说,提供了一种面向超级计算机的分布式层次化自主监控管理系统。
背景技术
超级计算机系统结构不同,其监控管理软件架构也不尽相同。目前比较典型的集群管理软件包括ganglia,nagios,supermon和parmon。
Ganglia是UC Berkeley发起的一个开源监控项目。Ganglia是目前应用最为广泛的集群监控软件之一。Ganglia能够得到广泛的应用主要得益于以下三点:1)Ganglia是一个开源项目。2)Ganglia采用分级的树状体系结构,该结构使得Ganglia具有良好的可扩展性,可支持不同规模的集群系统。3)Ganglia采用基于XML技术的数据传输机制,因此监控信息可以跨越不同的平台进行交互。Ganglia将结点划分成不同的区域,区域内的结点通过多播进行信息交互,因此每个结点都维护了一张本区域内所有结点状态的列表。这种组织方式使得Ganglia在不进行任何配置的情况下进行结点的删除与添加,但是其带来的代价很大。首先多播导致监控数据占用了系统网络带宽,其次每个结点都维护了一张本区域内的结点状态表,当区域较大时,这些全局冗余的数据的更新效率低下。
Nagios是由Ethan Galstad开发的一款基于GPLv2的开源软件,用于对系统运行状态和网络信息进行监控,也是当前使用广泛的监控软件之一川。其主要功能包括:网络服务监控(SMTP,POP3,HTTP,NNTP,ICMP,SNMP等)和主机资源监控(CPU负载、硬盘利用率和系统日志)。Nagios与Ganglia都可用于高性能计算环境中,但是这两者对监控的侧重点不同。Ganglia更多地收集监控数据并随时跟踪这些数据而Nagios则致力于成为一种报警机制。
Supermon是美国洛斯阿拉莫斯国家高级计算实验室开发的一套面向linux集群的监控系统。集群中的每个结点上都运行一个定制的内核模块mon,因此其信息采集效率高。Supermon依次与所有的mon进行通信来获取监控信息。Supermon是监控系统中的单一失效点,同时Supermon由于需要串行访问所有结点上的mon模块导致在大规模系统中监控效率下降。
Parmon是由印度高性能计算中心为PAR-MON集群开发的监控软件。该软件采用c/s结构,每个结点上运行一个server程序负责本地信息收集,Client负责集中管理与信息显示。当系统规模较大时Client收集全系统信息需要的时间较长从而导致监控软件的实时性差。
上述管理软件在一定规模的集群系统上可以高效运行,但是当系统规摸不断扩大时,这些管理软件面临如下问题,这也是超级计算机系统的监控管理所面临的问题。
1)实时性。当计算机系统规模扩大时,监控管理系统是否能够继续高效对系统进行管理与监控。随着应用需求的增长,系统规模扩大、性能提高是计算机系统的发展趋势。根据top500统计结果,2012年11月发布的top50。中排名第一的系统理论峰值27112TFlops,包括560 640个CPU核,一年后排名第一的系统性能提升到54902TFlops,规模扩展到3120 000个CPU核。系统性能翻了一翻,系统规模扩大了5倍多。传统的集中式监控已经无法适用于如此大规模的计算机系统。因此如何提高监控管理系统的实时性是超级计算机系统监控管理软件面临的问题之一。
2)可靠性。监控管理软件是超级计算机系统可靠性运行的保障之一,因此监控管理系统自身的可靠性是首先要解决的问题。
3)完备性。目前的监控管理软件基本上侧重于某个功能。例如Ganglia,Supermon和Permon都侧重于系统资源的监控,而Nagios则是侧重于对异常状态的管理。监控管理软件是提高超级计算机系统可靠性和可用性的关键,因此功能完备的监控管理软件才能更好实现对超级计算机系统的管理。
4)自组织性。如此庞大的超级计算机规模,要向完全发挥超级计算机系统的性能,完全靠人为管理和干预必然会导致性能的下降。因此需要提高系统的自主管理能力。监控管理软件如何基于数据环境自适应的改变管理策略,也是面临的问题之一。
5)可扩展性。超级计算机系统必须是可扩展的,可扩展包括规模(资源)可扩展、时间可扩展(升级)、性能可扩展、软件可扩展,前三项特点和超级计算机自身相关,而软件可扩展更是不仅针对超级计算机系统运行时的业务软件,同时针对超级计算机管理系统软件。
此外,从管理层次角度来看,自主计算管理体系结构重点研究多个自主元素之间的组织关系,从已有的研究看主要包括层次结构、对等结构、混合结构即层次和对等结构的结合。在层次结构中,上层自主管理者(AM)可以向其下层AM传递控制信息(CI),下层AM则向其上层AM传递状态信息(SI);上层AM控制系统的宏观自主特性,CI型出度为零的AM为底层自主管理者,实现微观控制。例如,基于控制论和效用函数优化的两层自主计算系统。在对等结构中,参与协作的AM不存在等级关系,控制信息和状态信息的传递是双向的,系统的全局自主特性通常是在个体的局部交互中“涌现”出来,例如,基于自组织涌现理论的体系结构。在这种体系结构中,AM的关系是对等的,不存在管理全局自治行为的AM,即系统宏观自主特性是在AM的局部交互中产生的。在混合结构中,上层AM可以向其下层AM传递控制信息(CI),下层AM向其上层AM传递状态信息(SI);上层AM控制系统的宏观自主特性,下层AM则基于上层AM提供的约束、通过交互实现该层的宏观特性。例如,把自主系统分为二层:上层是资源仲裁者,负责全局的资源分配,实现全局效用的最大化;下层是应用管理者,对于给定的资源,应用管理者通过调整局部参数,实现本地效用的最大化。应用管理者把本地服务级效用函数转化为资源仲裁者使用的资源级效用函数,资源仲裁者通过计算系统级的效用得到全局的资源分配方案,并以此来调整下层应用管理者的行为。
发明内容
为解决上述缺陷,本发明提供了一种面向超级计算机的分布式层次化自主监控管理系统。具体包括如下技术方案:
一种面向超级计算机的分布式层次化自主监控管理系统,其特征在于:监控管理系统采用分布式系统结构,分为三个层次,底层结点由所有的被管理设备组成,中间层包括多个中间代理,最顶层是多个管理结点,最底层的每个结点上运行一个信息采集模块daemon,负责采集结点的资源信息,包括结点配置、结点资源使用情况,结点负载,结点的用户及进程信息;
监控管理系统提供基于web的用户访问界面,管理员可以在远程或本地访问MMS。MMS实现了对系统资源管理,告警信息管理和系统配置信息的管理,资源管理是MMS的主要功能之一资源管理包括软件资源信息和硬件信息,软件资源主要包括系统资源、结点状态和全局存储信息,系统资源主要包括系统所有结点的状态和作业信息,包括结点是否空闲和可用、作业的运行状态、排队状态等,结点状态包括单个结点上的可用资源例如CPU、内存的利用率等。全局存储信息主要显示全局存储资源的使用和健康状态,硬件信息主要包括电压、温度、风扇信息、运行环境相关信息和系统功耗管理,系统管理员通过监控管理软件了解系统当前的健康状况、使用情况和功耗及运行环境状态;
监控管理系统采用统一监控管理策略,所述统一监控管理策略内容如下:
策略分类:依据全局监控管理策略划分为若干类别,包括:交换机、磁盘阵列、操作系统、磁带库、数据库、硬件信息;策略抽象:各层次自主元素从同一类型不同厂商产品的监控管理策略中,抽象出该类型产品的统一监控管理策略格式;策略描述:在上述监控管理策略分类的基础上,各层次自主元素实现对各个种类的监控管理策略进行统一描述;策略组合:将监控管理策略分为直接策略和间接策略两种,其中,直接策略是通过策略转换直接实施到具体设备或应用上的,而间接策略则由一组直接策略或间接策略组合而成;策略配置:实现将统一策略转换为具体设备策略的监控管理策略处理模块,另外再实现将具体设备策略分发到设备或应用上的设备监管驱动和中间代理模块。
进一步的,所述方案还具有如下特点:
结点信息采集模块包括带内daemon和带外OOB-mon模块,Daemon运行在结点上,负责采集本地信息,OOB-mon是结点的带外监控程序,负责一个或多个结点的硬件状态监控。OOB-mon和daemon采集到的信息发送到对应的中间代理模块。
进一步的,所述方案还具有如下特点:
管理结点提供基于web的监控服务,用户通过浏览器可以实现系统的远程和本地监控,管理结点上的报警信息处理模块负责接收系统内所有的报警消息,对报警消息进行解析并存储到数据库,同时将报警消息发送到客户端。
进一步的,所述方案还具有如下特点:
被管理网络由节点组成。设一个逻辑分区内被管理节点个数为n,每个节点上均有一个中间代理,该代理有一个全局唯一标识(ID1),并作为先验知识被本分区内其他中间代理所知,整个分区内任意两中间代理间都可以通过消息互相传递信息,即为全连接拓扑结构,整个分区代理的集合可以用{ID0,ID1,ID2,……IDN-1}表示,在每个逻辑分区内,由一个管理节点对分区内的中间代理进行管理。
进一步的,所述方案还具有如下特点:
Daemon将采集到的信息分成两类,其中一类是静态信息,另一类是动态信息。所述静态信息包括CPU的型号、内存的型号及容量,网络理论带宽和本地存储容量信息。所述动态信息包括CPU、内存和网络利用率,作业负载信息。
附图说明
图1是本发明的MMS功能示意图;
图2是本发明的监控系统结构图;
图3是本发明的中间代理的组织结构图;
具体实施方式
以下根据附图,详细说明本发明的实施例。说明本发明时如果对该发明相关的通知功能或结构的说明不必要时可以省略该部分的说明。还有后述的功能都是考虑到本发明而定义的功能,该功能根据运用者的意愿或惯例而可变,所以该定义是应该基于本说明书的全部内容而决定的。
超级计算机系统规模庞大,节点数目成千上万,系统设备复杂,系统中除了计算结点外还包括存储设备、互连设备和基础架构(包括供电和制冷)等,因此监控管理系统需要在对系统软件资源管理的同时,对这些硬件设备进行监测与控制,实现一个功能完备的监控管理系统。
监控管理系统MMS提供了基于web的用户访问界面,管理员可以在远程或本地访问MMS。MMS实现了对系统资源管理,告警信息管理和系统配置信息的管理,其主要功能如图1所示。资源管理是MMS的主要功能之一资源管理包括软件资源信息和硬件信息。软件资源主要包括系统资源、结点状态和全局存储信息。系统资源主要包括系统所有结点的状态和作业信息,包括结点是否空闲和可用、作业的运行状态、排队状态等。结点状态包括单个结点上的可用资源例如CPU、内存等的利用率等。全局存储信息主要显示全局存储资源的使用和健康状态。硬件信息主要包括电压、温度、风扇等信息、运行环境相关信息和系统功耗管理。系统管理员通过监控管理软件可以了解系统当前的健康状况、使用情况和功耗及运行环境状态。
同时,MMS采用统一监控管理策略,所述统一监控管理策略内容如下:
策略分类:依据全局监控管理策略划分为若干类别,包括:交换机、磁盘阵列、操作系统、磁带库、数据库、硬件信息;
策略抽象:各层次自主元素从同一类型不同厂商产品的监控管理策略中,抽象出该类型产品的统一监控管理策略格式;
策略描述:在上述监控管理策略分类的基础上,各层次自主元素实现对各个种类的监控管理策略进行统一描述;
策略组合:将监控管理策略分为直接策略和间接策略两种,其中,直接策略是可以通过策略转换直接实施到具体设备或应用上的,而间接策略则由一组直接策略或间接策略组合而成;
策略配置:实现将统一策略转换为具体设备策略的监控管理策略处理模块,另外再实现将具体设备策略分发到设备或应用上的设备监管驱动和中间代理模块。
MMS采用分布式系统结构如图2所示。MMS系统分为3个层次。底层结点由所有的被管理设备组成,中间层包括多个中间代理,最顶层是两个管理结点。最底层的每个结点上运行一个信息采集模块daemon,负责采集结点的资源信息,包括结点配置、结点资源(CPU、内存、网络、本地存储等)使用情况,结点负载,结点的用户及进程等相关信息。OOB-mon是结点的带外监控程序,负责一个或多个结点的硬件状态监控。OOB-mon和daemon采集到的信息发送到对应的client。在图2中,带箭头的实线表示数据通过计算网络进行传输,带箭头的虚线表示数据通过监控管理网络进行传输。从图2可以看出daemon与client之间的通信需要经过计算网络,对计算网络带来一定的影响。而OOB-mon与client之间通过专用的监控管理网络进行互连,因此带外管理对系统性能没有影响。Client是中间代理模块,负责接收来自所管辖范围内结点信息采集模块发送的信息,双机热备的两个管理结点负责管理中间代理同时向用户提供基于web的人机交互界面。中间代理和管理结点上都使用mysql数据库来存储信息。
结点信息采集模块包括带内daemon和带外OOB-mon模块。Daemon运行在结点上,负责采集本地信息。Daemon将采集到的信息分成两类。其中一类是静态信息,主要是系统配置信息,例如:CPU的型号、内存的型号及容量,网络理论带宽和本地存储容量等信息。另一类是动态信息,包括CPU、内存和网络利用率,作业负载等动态变化的信息。因为改变结点配置时通常情况下需要重新启动结点才能生效,此时daemon程序也将被重启,所以只有在dae-mon程序每次重启之后进行一次静态信息采集。Daemon启动后,等待接收来自中间代理的信息,然后开始查询。将查询的静态信息和首次查询(包括daemon启动后的第一次和中间代理发生变化后的第一次查询)的动态信息发送到中间代理,后续的查询只针对动态信息。动态信息查询的结果与上次的状态进行比较,标记发生了变化的信息,将信息采集结果以及比较结果存放到公共数据区。中间代理在查询过程中只需要访问公共数据区即可。中间代理和结点之间只传输发生了变化的数据。这种策略减少了计算网络上传输的监控管理数据量,从而降低对计算网络的影响。
中间代理层由多个中间代理组成。每个中间代理负责所属分区内结点的监控。如图3所示,中间代理包括4个功能模块。结点监听模块负责接收来自结点的静态信息和首次查询的动态信息。信息组播模块定时向所属分区内的结点发送中间代理的相关信息,保证故障结点恢复后知道自己所在分区。查询模块定时对所属结点进行动态信息查询,将查询的信息存储到本地数据库。
管理结点提供了基于web的监控服务,用户通过浏览器可以实现系统的远程和本地监控。管理结点上的报警信息处理模块负责接收系统内所有的报警消息,对报警消息进行解析并存储到数据库,同时将报警消息发送到客户端。
在本发明中,从网络管理角度来看,被管理网络由基本的被管元素----节点组成。设一个逻辑分区内被管理节点个数为n,每个节点上均有一个中间代理,该代理有一个全局唯一标识(ID1),并作为先验知识被本分区内其他中间代理所知,整个分区内任意两中间代理间都可以通过消息互相传递信息,即为全连接拓扑结构,整个分区代理的集合可以用{ID0,ID1,ID2,……IDN-1}表示。在每个逻辑分区内,由一个管理节点对分区内的中间代理进行管理。管理节点和中间代理之间依据集中式管理模式协作,即管理节点指示中间代理进行特定的操作或提供特定的信息,中间代理返回操作结果或被要求的信息;管理节点之间则依据一定的分布式协同模式完成管理任务。
本发明利用分治思想设计了超级计算机的自主管理系统。基于多逻辑分区动态管理方式,把大规模计算机系统根据一定策略进行逻辑分区,每个分区内部实现自主管理,以适应系统规模的扩展。每个分区内部,构建多层次自主元素进行管理,在多个分区的上层,构建高一级的自主元素实现系统级管理。每一级自主元素支持可扩展性,在新增设备或修改特征参数时系统不停机,实现系统的自配置。
到目前为止着重说明的是关于本发明的实施例。在属于本发明的技术领域里拥有常规的知识的人可以看出本发明并没有超出本质,只是一个稍微变型的一种,所以把上述的实施例不要理解为有限的观点应理解为说明性的观点。本发明的范围不是上述的说明而体现在权利要求范围内,至于其它在同一范围内的所有的差别应当理解成都包括在本发明里。

Claims (7)

1.一种面向超级计算机的分布式层次化自主监控管理系统,其特征在于:监控管理系统采用分布式系统结构,分为三个层次,底层结点由所有的被管理设备组成,中间层包括多个中间代理,最顶层是多个管理结点,最底层的每个结点上运行一个信息采集模块daemon,负责采集结点的资源信息,包括结点配置、结点资源使用情况,结点负载,结点的用户及进程信息;
监控管理系统提供基于web的用户访问界面,管理员在远程或本地访问MMS,MMS实现了对系统资源管理,告警信息管理和系统配置信息的管理,资源管理是MMS的主要功能之一资源管理包括软件资源信息和硬件信息,软件资源主要包括系统资源、结点状态和全局存储信息,系统资源主要包括系统所有结点的状态和作业信息,包括结点是否空闲和可用、作业的运行状态、排队状态,结点状态包括单个结点上的可用资源例如CPU、内存的利用率,全局存储信息主要显示全局存储资源的使用和健康状态,硬件信息主要包括电压、温度、风扇信息、运行环境相关信息和系统功耗管理,系统管理员通过监控管理软件了解系统当前的健康状况、使用情况和功耗及运行环境状态;
监控管理系统采用统一监控管理策略,所述统一监控管理策略内容如下:
策略分类:依据全局监控管理策略划分为若干类别,包括:交换机、磁盘阵列、操作系统、磁带库、数据库、硬件信息;策略抽象:各层次自主元素从同一类型不同厂商产品的监控管理策略中,抽象出该类型产品的统一监控管理策略格式;策略描述:在上述监控管理策略分类的基础上,各层次自主元素实现对各个种类的监控管理策略进行统一描述;策略组合:将监控管理策略分为直接策略和间接策略两种,其中,直接策略是通过策略转换直接实施到具体设备或应用上的,而间接策略则由一组直接策略或间接策略组合而成;策略配置:实现将统一策略转换为具体设备策略的监控管理策略处理模块,另外再实现将具体设备策略分发到设备或应用上的设备监管驱动和中间代理模块。
2.如权利要求1所述的系统,其特征在于:结点信息采集模块包括带内daemon和带外OOB-mon模块,Daemon运行在结点上,负责采集本地信息,OOB-mon是结点的带外监控程序,负责一个或多个结点的硬件状态监控,OOB-mon和daemon采集到的信息发送到对应的中间代理模块。
3.如权利要求1所述的系统,其特征在于:管理结点提供基于web的监控服务,用户通过浏览器实现系统的远程和本地监控,管理结点上的报警信息处理模块负责接收系统内所有的报警消息,对报警消息进行解析并存储到数据库,同时将报警消息发送到客户端。
4.如权利要求1所述的系统,其特征在于:被管理网络由节点组成,设一个逻辑分区内被管理节点个数为n,每个节点上均有一个中间代理,该代理有一个全局唯一标识ID1,并作为先验知识被本分区内其他中间代理所知,整个分区内任意两中间代理间都通过消息互相传递信息,即为全连接拓扑结构,整个分区代理的集合用{ID0,ID1,ID2,……IDN-1}表示,在每个逻辑分区内,由一个管理节点对分区内的中间代理进行管理。
5.如权利要求3所述的系统,其特征在于:Daemon将采集到的信息分成两类,其中一类是静态信息,另一类是动态信息。
6.如权利要求5所述的系统,其特征在于:所述静态信息包括CPU的型号、内存的型号及容量,网络理论带宽和本地存储容量信息。
7.如权利要求5所述的系统,其特征在于:所述动态信息包括CPU、内存和网络利用率,作业负载信息。
CN201610307721.6A 2016-05-11 2016-05-11 一种面向超级计算机的分布式层次化自主监控管理系统 Pending CN105975378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610307721.6A CN105975378A (zh) 2016-05-11 2016-05-11 一种面向超级计算机的分布式层次化自主监控管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610307721.6A CN105975378A (zh) 2016-05-11 2016-05-11 一种面向超级计算机的分布式层次化自主监控管理系统

Publications (1)

Publication Number Publication Date
CN105975378A true CN105975378A (zh) 2016-09-28

Family

ID=56992079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610307721.6A Pending CN105975378A (zh) 2016-05-11 2016-05-11 一种面向超级计算机的分布式层次化自主监控管理系统

Country Status (1)

Country Link
CN (1) CN105975378A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533792A (zh) * 2016-12-12 2017-03-22 北京锐安科技有限公司 一种监控和配置资源的方法及装置
CN107291589A (zh) * 2017-05-04 2017-10-24 中国电子科技集团公司第三十二研究所 在机器人操作系统中提升系统可靠性的方法
CN108337315A (zh) * 2018-02-07 2018-07-27 平安科技(深圳)有限公司 监控系统的部署方法、装置、计算机设备及存储介质
CN109753357A (zh) * 2018-12-25 2019-05-14 无锡华云数据技术服务有限公司 虚拟机管理平台的资源及网络拓扑构建方法、设备、介质
CN109818806A (zh) * 2019-03-05 2019-05-28 国网辽宁省电力有限公司信息通信分公司 一种电网公司带内管理与带外管理相结合的应用网络管控方法
WO2021017646A1 (zh) * 2019-07-29 2021-02-04 中兴通讯股份有限公司 一种业务请求消息发送方法、分布式数据库架构及计算机可读存储介质
CN112565193A (zh) * 2020-11-06 2021-03-26 西安电子科技大学 一种网络安全策略冲突分解方法、系统、存储介质、设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533792A (zh) * 2016-12-12 2017-03-22 北京锐安科技有限公司 一种监控和配置资源的方法及装置
CN107291589A (zh) * 2017-05-04 2017-10-24 中国电子科技集团公司第三十二研究所 在机器人操作系统中提升系统可靠性的方法
CN107291589B (zh) * 2017-05-04 2020-09-04 中国电子科技集团公司第三十二研究所 在机器人操作系统中提升系统可靠性的方法
CN108337315A (zh) * 2018-02-07 2018-07-27 平安科技(深圳)有限公司 监控系统的部署方法、装置、计算机设备及存储介质
WO2019153524A1 (zh) * 2018-02-07 2019-08-15 平安科技(深圳)有限公司 监控系统的部署方法、装置、计算机设备及存储介质
CN109753357A (zh) * 2018-12-25 2019-05-14 无锡华云数据技术服务有限公司 虚拟机管理平台的资源及网络拓扑构建方法、设备、介质
CN109818806A (zh) * 2019-03-05 2019-05-28 国网辽宁省电力有限公司信息通信分公司 一种电网公司带内管理与带外管理相结合的应用网络管控方法
WO2021017646A1 (zh) * 2019-07-29 2021-02-04 中兴通讯股份有限公司 一种业务请求消息发送方法、分布式数据库架构及计算机可读存储介质
US11824924B2 (en) 2019-07-29 2023-11-21 Xi'an Zhongxing New Software Co., Ltd. Service request message sending method, distributed database architecture and computer readable storage medium
CN112565193A (zh) * 2020-11-06 2021-03-26 西安电子科技大学 一种网络安全策略冲突分解方法、系统、存储介质、设备

Similar Documents

Publication Publication Date Title
CN105975378A (zh) 一种面向超级计算机的分布式层次化自主监控管理系统
Gill et al. A taxonomy and future directions for sustainable cloud computing: 360 degree view
Barroso et al. The datacenter as a computer: An introduction to the design of warehouse-scale machines
Jiang et al. Energy aware edge computing: A survey
Duong-Ba et al. A dynamic virtual machine placement and migration scheme for data centers
Kirby et al. An approach to ad hoc cloud computing
Lin et al. QoS-aware data replication for data-intensive applications in cloud computing systems
CN102724057B (zh) 一种面向云计算平台的分布式层次化自主管理方法
CN104125286A (zh) 一种基于云计算的企业基础设施智能云化管理系统
CN102164184A (zh) 云计算网络中计算机实体的接入和管理方法及云计算网络
Wang et al. Achieving energy efficiency in data centers using an artificial intelligence abstraction model
CN100357930C (zh) 网格环境下的大规模数据并行型计算主系统
Guo et al. Fast replica recovery and adaptive consistency preservation for edge cloud system
CN110912982A (zh) 芯片设计云计算系统及方法
Aliyu et al. Management of cloud resources and social change in a multi-tier environment: a novel finite automata using ant colony optimization with spanning tree
Petri et al. Autonomics at the edge: Resource orchestration for edge native applications
Khargharia et al. vGrid: A Framework For Building Autonomic Applications.
CN116843152A (zh) 面向电力-数据服务的互联网数据中心双层规划方法
Liu et al. Near-data prediction based speculative optimization in a distribution environment
Hasan et al. E-FFTF: An extended framework for flexible fault tolerance in cloud
Zhang et al. A PGSA based data replica selection scheme for accessing cloud storage system
Zhai et al. Automatic deployment system of computer program application based on cloud computing
Sengupta et al. Collaborative learning-based schema for predicting resource usage and performance in F2C paradigm
Liang et al. Computing cluster and artificial intelligence in the analysis and application of college students' physical exercise behavior
Lu et al. Grid load balancing scheduling algorithm based on statistics thinking

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160928

WD01 Invention patent application deemed withdrawn after publication