CN108092813A - 数据中心综合管理系统服务器硬件管理框架及实现方法 - Google Patents

数据中心综合管理系统服务器硬件管理框架及实现方法 Download PDF

Info

Publication number
CN108092813A
CN108092813A CN201711393346.2A CN201711393346A CN108092813A CN 108092813 A CN108092813 A CN 108092813A CN 201711393346 A CN201711393346 A CN 201711393346A CN 108092813 A CN108092813 A CN 108092813A
Authority
CN
China
Prior art keywords
management
data center
management system
server
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711393346.2A
Other languages
English (en)
Inventor
李俊山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201711393346.2A priority Critical patent/CN108092813A/zh
Publication of CN108092813A publication Critical patent/CN108092813A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • H04L43/106Active monitoring, e.g. heartbeat, ping or trace-route using time related information in packets, e.g. by adding timestamps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

本发明公开了数据中心综合管理系统服务器硬件管理框架及实现方法,属于信息技术管理领域,本发明要解决的技术问题为如何能够实现模块化数据中心综合管理系统的服务器硬件的统一管理,采用的技术方案为:①、数据中心综合管理系统服务器硬件管理框架,其特征在于,该框架包括模块化服务接口、管理节点模块、配置表数据库、信息表数据库、协议封装模块、信息采集模块和采集探针模块。②、数据中心综合管理系统服务器硬件管理的实现方法,其特征在于,在数据中心综合管理系统上部署Agent+Proxy/Server,用于实现服务器功耗动态管理、智能日志监控以及设备健康等级智能评估。

Description

数据中心综合管理系统服务器硬件管理框架及实现方法
技术领域
本发明涉及信息管理技术领域,具体地说是数据中心综合管理系统服务器硬件管理框架及实现方法。
背景技术
模块化数据中心(Module Data Center,MDC)是基于云计算的新一代数据中心部署形式,为了应对云计算、虚拟化、集中化、高密化等服务器发展的趋势,其采用模块化设计理念,最大程度的降低基础设施对机房环境的耦合。集成了供配电、制冷、机柜、气流遏制、综合布线、动环监控等子系统,提高数据中心的整体运营效率,实现快速部署、弹性扩展和绿色节能。
随着大数据信息行业的飞速发展,数据中心的发展也进入到一个新的阶段。管理系统是数据中心内部配置的重要组成部分。传统的管理系统主要以动环监控为主,具备多种数据接口,可接入UPS、配电柜、精密空调、门禁、温湿度传感器、烟雾探测器、温感探测器、漏水传感器、翻转天窗及网络摄像机等多种监控对象,
当前,随着云计算、大数据和互联网的快速发展,信息化的基础设施发生了根本转变,监控管理的需求从一些单独的系统要求转化为整体平台化、统一平台、统一管理的系统要求。各项应用服务器不再是单独的计算模块,而是通过云计算、大数据等平台将计算、存储资源统一起来,跨越数据中心范围形成规模庞大、统一监控与管理的资源池,因此需要能够监控大规模、分布式、跨地域的虚拟资源与物理资源的统一监控系统及监控方法。
在服务器数量规模较小的场景下不曾被关注的问题,在服务器规模膨胀的今天却纷纷暴露出来,如高层次的问题:如何既保证高可用性(SLA:Service-Level Agreement),又能提高效率(上线效率和修复效率),还能够降低TCO(硬件成本,人员成本)。此时统一监控的概念应运而生,但仍有欠缺,其中的短板就是服务器硬件监控(包括计算服务器和存储服务器)不够智能,智能服务器硬件监控已成为IT运营人员(IT Operations,从运维向运营转变)的重点关注对象之一。如:硬件故障报出率偏低(目前约70%),硬件故障定位粗放,导致修复效率低(时间长),修复成本高(时间长,修复慢);还有典型的服务器批次问题、硬件疑难杂症影响业务的问题、服务器生命周期如何控制的问题、数据中心中服务器的能耗成本问题、整体资源利用率偏低的问题等。
从根本上解决服务器硬件问题的路径在于通过建立服务器硬件的统一监控平台来解决监控、预测、修复等问题。通过部件级粒度的指标采集,快速感知硬件故障并在线修复故障,更进一步是基于AI(AI:Artificial Intelligence)的故障预测、整体容量评估、TCO评估等功能,来提高服务器硬件服务的SLA,降低整体运维成本、延长服务器服役的生命周期。
现有技术的技术方案,主要是通过IPMI接口实现。传统的仅依赖一般性开源工具或采用IPMI(IPMI:Intelligent Platform Management Interface)的方式都各有弊端,很难跨品牌来兼容所有类型的服务器硬件。
基于x86处理器的传统服务器硬件管理通道通常包括带外(Out-Of-Band)和带内(In-Band)两种方式。
带外方式主要是以IPMI2.0为代表的服务器远程管理协议以及服务器厂商自定义的基于IPMI的定制扩展协议,如HP的i LO,Dell i DRAC,华为i Mana等,核心集中在各种不同的指令集,可以接管服务器主要的硬件设备管理,受限于带外协议以及资源的限制,部分信息暂时无法获取(硬盘详细信息、RAID卡下的硬盘拓扑等)。带外方式缺点是数据缺失无法弥补(定制化指令集,服务器使用者无法修改),无平台通用性(各家指令集不同,无法统一)。
带内采集方式是采用软探针技术对硬件数据进行采集,获取到的硬件监控数据会更为全面,数据采集范围可以按照运维知识库合理扩充,可以灵活调整采集频率,为数据建模预测提供足够的样本。带内数据采集及管理方式,可以更好地覆盖硬件监控范围,有效提高硬件故障报出率(带内方式的最高故障报出率为99.6%),是目前大中型互联网厂商普遍采用的方式。带内方式的缺点是对于探针的稳定性要求较高,数据采集的安全性不如带外方式,数据采集与指令传输会受内网或外网异常的影响。
此外,现有技术主要是针对单独功能模块实现的,在数据中心综合管理系统框架下,进行统一的管理,实现资源和能耗的统一监控与优化上有明显的不足。
发明内容
本发明的技术任务是提供数据中心综合管理系统服务器硬件管理框架及实现方法,来解决如何能够实现模块化数据中心综合管理系统的服务器硬件的统一管理的问题。
本发明的技术任务是按以下方式实现的,数据中心综合管理系统服务器硬件管理框架,该框架包括模块化服务接口、管理节点模块、配置表数据库、信息表数据库、协议封装模块、信息采集模块和采集探针模块;
其中,模块化服务接口用于各个功能模块的动态接入;
管理节点模块用于管理模型的识别和组装;
配置表数据库和信息表数据库用于数据库内存储信息配置与数据的存储单元;
协议封装模块用于根据不同管理对象,进行相应的协议封装与管理;
信息采集模块用于完成数据采集、数据分析以及监控服务,数据采集包括资产采集、故障采集、性能采集以及功耗采集;数据分析包括阀值触发以及大数据分析;监控服务包括故障自愈、时间管理、容量管理以及数据呈现;
采集探针模块用于执行数据中心综合管理系统对信息采集模块的操作。
作为优选,所述信息采集模块包括信号采集模块、事件采集模块以及控制模块,信号采集模块用于实时监控时传输实时值,事件采集模块用于设备告警,控制模块用于对设备进行远程操作。
更优地,所述设备告警包括实时告警和历史告警。
数据中心综合管理系统服务器硬件管理的实现方法,在数据中心综合管理系统上部署Agent+Proxy/Server,用于实现服务器功耗动态管理、智能日志监控以及设备健康等级智能评估;其中,Agent以进程的方式存在于数据中心综合管理系统中,用于对x86服务器硬件的监控以及完成采集频率、故障信息的监控频率和性能信息的监控频率的设置;Proxy和Server作为管理端部署在数据中心综合管理系统上,Server用于处理和分析数据以及数据的类别划分,Proxy用于在网络分割或超大规模的情况下处理网段隔离、数据分担的情况。
作为优选,所述服务器功耗动态管理的实现过程包括如下步骤:
(1)、在机架处设置一个小于机架功耗峰值的功耗封顶值;
(2)、在服务器节点通过内置于服务器主板固件中的软件和机架管理节点检测实时功耗,功耗到达或接近阀值时便会通过降低CPU运行频率和内存运行频率的方式降低单个服务器的功耗,进而降低机架功耗,即设置适当的机架功耗封顶值,有助于保证机架功耗不超标。
作为优选,所述设备健康等级智能评估是为了完成全面信息收集支撑故障根因分析、系统预定义健康等级评估标准辅助运维、健康等级开放自定义以及智能分析报表。
更优地,所述设备的健康等级分为四级,分别为:
Normal等级:对应的任务调度建议为资源优化管理,运维管理建议为无;
Warning等级:对应的任务调度建议为当前任务继续,运维管理建议为迁移后续业务工具在线修复;
Critical等级:对应的任务调度建议为屏蔽故障部件,运维管理建议为其他任务继续部件在线修复;
Fatal等级:对应的任务调度建议为屏蔽节点,运维管理建议为整机离线检修。
作为优选,该实现方法还定义了北向接口,北向接口是基于标准数据格式,结合RESTful规范提供统一的导出所有服务器硬件数据的功能,以供外部的系统使用接口进行二次开发;同时数据中心综合管理系统内部对生成的动态信息和决策数据按照定义的标准格式对外部系统进行推送。
更优地,所述动态信息包括事件的格式信息,针对事件格式信息定义10个字段组成标准内容,分别是时间戳、机器SN、主机名、设备名、设备型号、设备SN、设备槽位、异常来源和异常结果,外部系统基于上述字段与数据中心综合管理系统内部进行整合。
作为优选,该实现方法还定义了安全管理方法,安全管理方法包括如下步骤:
(1)、单项通讯:server和agent之间采取agent->server单向通信上报数据的机制,agent在服务器上不开启端口,减少攻击面;
(2)、server端对于所有获取敏感数据的操作均需要进行登录验证,同时对于所有修改的操作记录有操作日志进行记录server和agent之间交互。
本发明的数据中心综合管理系统服务器硬件管理框架及实现方法与现有技术具有以下优点:
(一)、本发明有助于数据中心的统一管理,尤其是在涉及物理资源与虚拟资源同时需要监控的场景,具备更细粒度的硬件监控,更好的故障报警策略包括分级,压缩去重,在线值班,提供额外的可选价值,包括资产管理,到货验收以及健康评级,数据中心综合管理系统服务器硬件管理方法提供故障预测,智能修复,智能节能功能,同时该方法对于研究类似的服务器硬件管理系统具有参考意义;
(二)、本发明通过部署server/agent集群的框架接口,使得数据中心综合管理系统统一纳入所设计的服务器硬件管理服务框架之下,构建了一个高效、稳定的数据中心综合管理系统,实现了可扩展的定制化框架来为业务部分提供各类定制化接口和定制化功能。
附图说明
下面结合附图对本发明进一步说明。
附图1为数据中心综合管理系统服务器硬件管理框架结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的数据中心综合管理系统服务器硬件管理框架及实现方法作以下详细地说明。
实施例:
如附图1所示,本发明的数据中心综合管理系统服务器硬件管理框架,该框架包括模块化服务接口、管理节点模块、配置表数据库、信息表数据库、协议封装模块、信息采集模块和采集探针模块;其中,模块化服务接口用于各个功能模块的动态接入;管理节点模块用于管理模型的识别和组装;配置表数据库和信息表数据库用于数据库内存储信息配置与数据的存储单元;协议封装模块用于根据不同管理对象,进行相应的协议封装与管理;信息采集模块用于完成数据采集、数据分析以及监控服务,数据采集包括资产采集、故障采集、性能采集以及功耗采集;数据分析包括阀值触发以及大数据分析,数据分析还包括机器学习等数据建模技术在内的预测技术来提前对故障、容量等关键指标进行预判。监控服务包括故障自愈、时间管理、容量管理以及数据呈现。采集探针模块用于执行数据中心综合管理系统对信息采集模块的操作。信息采集模块包括信号采集模块、事件采集模块以及控制模块,信号采集模块用于实时监控时传输实时值,事件采集模块用于设备告警,控制模块用于对设备进行远程操作。设备告警包括实时告警和历史告警。
实施例2:
基于实施例1的数据中心综合管理系统服务器硬件管理的实现方法,在数据中心综合管理系统上部署Agent+Proxy/Server,用于实现服务器功耗动态管理、智能日志监控以及设备健康等级智能评估。
其中,Agent以进程的方式存在于数据中心综合管理系统中,用于对x86服务器硬件的监控以及完成采集频率、故障信息的监控频率和性能信息的监控频率的设置,采集频率设置为资产信息每小时采集一次;故障信息的监控频率为秒级即实时监控;性能信息的监控频率可设置为1-10min任意值,后续支持诊断性的秒级实时性能监控。
Proxy和Server作为管理端部署在数据中心综合管理系统上,Server用于处理和分析数据以及数据的类别划分,数据的类别划分是按照基本配置信息、故障信息、功耗信息、使用情况等类别进行归一化分类,得到的结果首先可以提供给数据中心综合管理系统的集群调度模块使用,其次可以作为算法平台分析的数据来源。基于这些数据,可以使用支持向量机(SVM)、梯度提升决策树(GBDT)等机器学习算法寻找数据中的规律,挖掘大规模数据中存在的潜在价值收益点,最终对外提供故障/趋势预测等功能服务。
Proxy用于在网络分割或超大规模的情况下处理网段隔离、数据分担的情况。
服务器功耗动态管理的实现过程包括如下步骤:
(1)、在机架处设置一个小于机架功耗峰值的功耗封顶值;
(2)、在服务器节点通过内置于服务器主板固件中的软件和机架管理节点检测实时功耗,功耗到达或接近阀值时便会通过降低CPU运行频率和内存运行频率的方式降低单个服务器的功耗,进而降低机架功耗,即设置适当的机架功耗封顶值,有助于保证机架功耗不超标。
动态功耗管理的具体实施过程如下:当前不同厂商对于带外基于BMC(BMC :Baseboard Management Controller)服务器功耗传感器的定义和实现方式并不统一,并且带外对于大规模(单机房1万台设备)设备进行轮询带来的部署成本和采集时间差,所以利用Intel Node Manager采用带内方式实现动态功耗管理就是一个较好的选择。此时以30秒间隔实时上报服务器输入端功率信息,并结合配置管理数据库(CMDB:ConfigurationManagement Database)拓扑,通过实时流计算框架得出机架排、机架列的实时功耗状态。
在实施动态功耗管理实现方法中,应注意以下三点:
①、 带内基于KCS(KCS: Keyboard Controller Style)的IPMI接口数据传输速率较低,考虑到对于主机的资源占用及响应速度,此处以30秒间隔采集功耗信息;若局部计算资源需要频率更高的采集密度,建议采用带外通过BMC接口来实现。
②、在限制了服务器的峰值功耗后,可能对业务产生性能上的影响,因此需要通过通用的业务调度器管理集群,在可能的影响到达时,提前迁移任务至别的节点,由于通用调度器集群中部署跨机架甚至跨机房的特性,被迁移的任务可以在其他未达到峰值的机架内部的节点上运行完成。
③、为了减少对于通用调度器频繁调度业务带来的影响,可以基于服务器的历史功耗,CPU、内存、硬盘、网卡等部件的负载使用率等数据,对服务器下一时刻的功耗进行预测,借以提前发现机架、列、机房级别的供电冗余。
智能日志监控,传统的基于ELK(ELK :Elastic Search, Log stash, Kibana)的方式对全量采集log日志进行分析,采用这种形式的好处是可以在中心汇聚节点灵活定义数据分析模型。而基于服务器硬件监控的平台则不同,由于硬件本身的问题域较小,部分的判定逻辑可以完全内置于采集探针(Agent)中,且不会经常性改动,这样可以减轻服务器端压力和复杂性,减少服务器单点依赖,同时也减少了采集探针本身占用的系统开销,所述管理方法数据采集需要一个“智能”的探针,而不是简单化地将日志扔出去的非“智能”探针。由于带内Agent常驻在OS(OS :Operating System)内部运行,对于资源占用需要有精确的计算和控制,通常经验下对于OS的CPU占用峰值应该在2%以内,内存使用小于80MB。带宽占用视采集数据量变化,但应控制在合理空间的范围内,存储空间占用(包括所有的数据,日志等)在400MB之内。
设备健康等级智能评估是为了完成全面信息收集支撑故障根因分析、系统预定义健康等级评估标准辅助运维、健康等级开放自定义以及智能分析报表。设备的健康等级分为四级,分别为:
Normal等级:对应的任务调度建议为资源优化管理,运维管理建议为无;
Warning等级:对应的任务调度建议为当前任务继续,运维管理建议为迁移后续业务工具在线修复;
Critical等级:对应的任务调度建议为屏蔽故障部件,运维管理建议为其他任务继续部件在线修复;
Fatal等级:对应的任务调度建议为屏蔽节点,运维管理建议为整机离线检修。
该实现方法还定义了北向接口,北向接口是基于标准数据格式,结合RESTful规范提供统一的导出所有服务器硬件数据的功能,以供外部的系统使用接口进行二次开发;同时数据中心综合管理系统内部对生成的动态信息和决策数据按照定义的标准格式对外部系统进行推送。动态信息包括事件的格式信息,针对事件格式信息定义10个字段组成标准内容,分别是时间戳、机器SN、主机名、设备名、设备型号、设备SN、设备槽位、异常来源和异常结果,外部系统基于上述字段与数据中心综合管理系统内部进行整合。
该实现方法还定义了安全管理方法,安全管理方法包括如下步骤:
(1)、单项通讯:server和agent之间采取agent->server单向通信上报数据的机制,agent在服务器上不开启端口,减少攻击面;
(2)、server端对于所有获取敏感数据的操作均需要进行登录验证,同时对于所有修改的操作记录有操作日志进行记录server和agent之间交互。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (10)

1.数据中心综合管理系统服务器硬件管理框架,其特征在于,该框架包括模块化服务接口、管理节点模块、配置表数据库、信息表数据库、协议封装模块、信息采集模块和采集探针模块;
其中,模块化服务接口用于各个功能模块的动态接入;
管理节点模块用于管理模型的识别和组装;
配置表数据库和信息表数据库用于数据库内存储信息配置与数据的存储单元;
协议封装模块用于根据不同管理对象,进行相应的协议封装与管理;
信息采集模块用于完成数据采集、数据分析以及监控服务,数据采集包括资产采集、故障采集、性能采集以及功耗采集;数据分析包括阀值触发以及大数据分析;监控服务包括故障自愈、时间管理、容量管理以及数据呈现;
采集探针模块用于执行数据中心综合管理系统对信息采集模块的操作。
2.根据权利要求1所述的数据中心综合管理系统服务器硬件管理框架,其特征在于,所述信息采集模块包括信号采集模块、事件采集模块以及控制模块,信号采集模块用于实时监控时传输实时值,事件采集模块用于设备告警,控制模块用于对设备进行远程操作。
3.根据权利要求2所述的数据中心综合管理系统服务器硬件管理框架,其特征在于,所述设备告警包括实时告警和历史告警。
4.数据中心综合管理系统服务器硬件管理的实现方法,其特征在于,在数据中心综合管理系统上部署Agent+Proxy/Server,用于实现服务器功耗动态管理、智能日志监控以及设备健康等级智能评估;其中,Agent以进程的方式存在于数据中心综合管理系统中,用于对x86服务器硬件的监控以及完成采集频率、故障信息的监控频率和性能信息的监控频率的设置;Proxy和Server作为管理端部署在数据中心综合管理系统上,Server用于处理和分析数据以及数据的类别划分,Proxy用于在网络分割或超大规模的情况下处理网段隔离、数据分担的情况。
5.根据权利要求4所述的数据中心综合管理系统服务器硬件管理的实现方法,其特征在于,所述服务器功耗动态管理的实现过程包括如下步骤:
(1)、在机架处设置一个小于机架功耗峰值的功耗封顶值;
(2)、在服务器节点通过内置于服务器主板固件中的软件和机架管理节点检测实时功耗,功耗到达或接近阀值时便会通过降低CPU运行频率和内存运行频率的方式降低单个服务器的功耗,进而降低机架功耗。
6.根据权利要求4所述的数据中心综合管理系统服务器硬件管理的实现方法,其特征在于,所述设备健康等级智能评估是为了完成全面信息收集支撑故障根因分析、系统预定义健康等级评估标准辅助运维、健康等级开放自定义以及智能分析报表。
7.根据权利要求6所述的数据中心综合管理系统服务器硬件管理的实现方法,其特征在于,所述设备的健康等级分为四级,分别为:
Normal等级:对应的任务调度建议为资源优化管理,运维管理建议为无;
Warning等级:对应的任务调度建议为当前任务继续,运维管理建议为迁移后续业务工具在线修复;
Critical等级:对应的任务调度建议为屏蔽故障部件,运维管理建议为其他任务继续部件在线修复;
Fatal等级:对应的任务调度建议为屏蔽节点,运维管理建议为整机离线检修。
8.根据权利要求4所述的数据中心综合管理系统服务器硬件管理的实现方法,其特征在于,该实现方法还定义了北向接口,北向接口是基于标准数据格式,结合RESTful规范提供统一的导出所有服务器硬件数据的功能,以供外部的系统使用接口进行二次开发;同时数据中心综合管理系统内部对生成的动态信息和决策数据按照定义的标准格式对外部系统进行推送。
9.根据权利要求8所述的数据中心综合管理系统服务器硬件管理的实现方法,其特征在于,所述动态信息包括事件的格式信息,针对事件格式信息定义10个字段组成标准内容,分别是时间戳、机器SN、主机名、设备名、设备型号、设备SN、设备槽位、异常来源和异常结果,外部系统基于上述字段与数据中心综合管理系统内部进行整合。
10.根据权利要求4所述的数据中心综合管理系统服务器硬件管理的实现方法,其特征在于,该实现方法还定义了安全管理方法,安全管理方法包括如下步骤:
(1)、单项通讯:server和agent之间采取agent->server单向通信上报数据的机制,agent在服务器上不开启端口,减少攻击面;
(2)、server端对于所有获取敏感数据的操作均需要进行登录验证,同时对于所有修改的操作记录有操作日志进行记录server和agent之间交互。
CN201711393346.2A 2017-12-21 2017-12-21 数据中心综合管理系统服务器硬件管理框架及实现方法 Pending CN108092813A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711393346.2A CN108092813A (zh) 2017-12-21 2017-12-21 数据中心综合管理系统服务器硬件管理框架及实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711393346.2A CN108092813A (zh) 2017-12-21 2017-12-21 数据中心综合管理系统服务器硬件管理框架及实现方法

Publications (1)

Publication Number Publication Date
CN108092813A true CN108092813A (zh) 2018-05-29

Family

ID=62177817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711393346.2A Pending CN108092813A (zh) 2017-12-21 2017-12-21 数据中心综合管理系统服务器硬件管理框架及实现方法

Country Status (1)

Country Link
CN (1) CN108092813A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062618A (zh) * 2018-06-29 2018-12-21 深圳市同泰怡信息技术有限公司 一种服务器单节点功耗封顶固件的开发方法、系统及介质
CN109144765A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 报表生成方法、装置、计算机设备及存储介质
CN109189652A (zh) * 2018-06-26 2019-01-11 中国科学院信息工程研究所 一种封闭网络终端行为数据的采集方法及系统
CN109460344A (zh) * 2018-09-26 2019-03-12 国家计算机网络与信息安全管理中心 一种服务器的运维分析方法与系统
CN110266720A (zh) * 2019-07-05 2019-09-20 上海麦克风文化传媒有限公司 在线管理服务器资产数据的优化工作方法
CN110300019A (zh) * 2019-06-01 2019-10-01 中国人民解放军战略支援部队信息工程大学 一种面向多协议交换系统的事件管理子系统及方法
CN110726978A (zh) * 2019-11-29 2020-01-24 北京无线电测量研究所 一种雷达健康状态维护方法、系统、介质及设备
CN111629043A (zh) * 2020-05-21 2020-09-04 北京计算机技术及应用研究所 一种基于云端模式的跨平台健康管理系统
CN112445674A (zh) * 2019-08-30 2021-03-05 中国石油化工股份有限公司 一种计算机集群的数据处理方法和存储介质
CN113505165A (zh) * 2021-07-05 2021-10-15 曙光信息产业(北京)有限公司 传感器数据的处理方法、装置、计算机设备及存储介质
CN114513522A (zh) * 2022-01-04 2022-05-17 武汉烽火技术服务有限公司 一种北向接口资源导出系统
CN114884726A (zh) * 2022-05-06 2022-08-09 广东申立信息工程股份有限公司 一种用于监控idc数据安全的管理系统
CN117333981A (zh) * 2023-10-31 2024-01-02 浙江泰源科技有限公司 一种机房集成监控管理方法与系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515161A (zh) * 2008-02-18 2009-08-26 国际商业机器公司 集中能源管理方法和系统
US20100185596A1 (en) * 2009-01-14 2010-07-22 Vmware, Inc. Drift visualization
CN102739802A (zh) * 2012-07-06 2012-10-17 广东电网公司汕头供电局 面向业务应用的it集中运维分析系统
CN103795575A (zh) * 2014-02-12 2014-05-14 浪潮电子信息产业股份有限公司 一种面向多数据中心的系统监控方法
CN103870297A (zh) * 2012-12-14 2014-06-18 北京华胜天成科技股份有限公司 云计算环境中虚拟机的性能数据采集系统和方法
CN105335273A (zh) * 2015-09-25 2016-02-17 浪潮(北京)电子信息产业有限公司 一种面向私有云的云管理平台
CN105676996A (zh) * 2015-12-31 2016-06-15 曙光信息产业(北京)有限公司 一种龙芯服务器的功耗控制方法和装置
CN106227636A (zh) * 2016-07-20 2016-12-14 国网安徽省电力公司信息通信分公司 一种基于ipmi的数据中心带外管理系统
CN106897410A (zh) * 2017-02-17 2017-06-27 四川世纪物联科技有限公司 一种基于大数据的WiFi增值服务系统及实现方法
CN107070726A (zh) * 2017-05-22 2017-08-18 郑州云海信息技术有限公司 一种基于mdc的综合管理方法
CN107086936A (zh) * 2017-06-23 2017-08-22 郑州云海信息技术有限公司 一种基于mdc的容量管理设计方法
CN107463476A (zh) * 2016-06-02 2017-12-12 中兴通讯股份有限公司 信息的获取方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515161A (zh) * 2008-02-18 2009-08-26 国际商业机器公司 集中能源管理方法和系统
US20100185596A1 (en) * 2009-01-14 2010-07-22 Vmware, Inc. Drift visualization
CN102739802A (zh) * 2012-07-06 2012-10-17 广东电网公司汕头供电局 面向业务应用的it集中运维分析系统
CN103870297A (zh) * 2012-12-14 2014-06-18 北京华胜天成科技股份有限公司 云计算环境中虚拟机的性能数据采集系统和方法
CN103795575A (zh) * 2014-02-12 2014-05-14 浪潮电子信息产业股份有限公司 一种面向多数据中心的系统监控方法
CN105335273A (zh) * 2015-09-25 2016-02-17 浪潮(北京)电子信息产业有限公司 一种面向私有云的云管理平台
CN105676996A (zh) * 2015-12-31 2016-06-15 曙光信息产业(北京)有限公司 一种龙芯服务器的功耗控制方法和装置
CN107463476A (zh) * 2016-06-02 2017-12-12 中兴通讯股份有限公司 信息的获取方法及装置
CN106227636A (zh) * 2016-07-20 2016-12-14 国网安徽省电力公司信息通信分公司 一种基于ipmi的数据中心带外管理系统
CN106897410A (zh) * 2017-02-17 2017-06-27 四川世纪物联科技有限公司 一种基于大数据的WiFi增值服务系统及实现方法
CN107070726A (zh) * 2017-05-22 2017-08-18 郑州云海信息技术有限公司 一种基于mdc的综合管理方法
CN107086936A (zh) * 2017-06-23 2017-08-22 郑州云海信息技术有限公司 一种基于mdc的容量管理设计方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189652A (zh) * 2018-06-26 2019-01-11 中国科学院信息工程研究所 一种封闭网络终端行为数据的采集方法及系统
CN109062618B (zh) * 2018-06-29 2022-01-11 深圳市同泰怡信息技术有限公司 一种服务器单节点功耗封顶固件的开发方法、系统及介质
CN109062618A (zh) * 2018-06-29 2018-12-21 深圳市同泰怡信息技术有限公司 一种服务器单节点功耗封顶固件的开发方法、系统及介质
CN109144765A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 报表生成方法、装置、计算机设备及存储介质
CN109144765B (zh) * 2018-08-21 2024-02-02 平安科技(深圳)有限公司 报表生成方法、装置、计算机设备及存储介质
CN109460344B (zh) * 2018-09-26 2023-04-28 国家计算机网络与信息安全管理中心 一种服务器的运维分析方法与系统
CN109460344A (zh) * 2018-09-26 2019-03-12 国家计算机网络与信息安全管理中心 一种服务器的运维分析方法与系统
CN110300019A (zh) * 2019-06-01 2019-10-01 中国人民解放军战略支援部队信息工程大学 一种面向多协议交换系统的事件管理子系统及方法
CN110300019B (zh) * 2019-06-01 2022-01-25 中国人民解放军战略支援部队信息工程大学 一种面向多协议交换系统的事件管理子系统及方法
CN110266720A (zh) * 2019-07-05 2019-09-20 上海麦克风文化传媒有限公司 在线管理服务器资产数据的优化工作方法
CN110266720B (zh) * 2019-07-05 2022-02-08 上海麦克风文化传媒有限公司 在线管理服务器资产数据的优化工作方法
CN112445674A (zh) * 2019-08-30 2021-03-05 中国石油化工股份有限公司 一种计算机集群的数据处理方法和存储介质
CN110726978A (zh) * 2019-11-29 2020-01-24 北京无线电测量研究所 一种雷达健康状态维护方法、系统、介质及设备
CN111629043B (zh) * 2020-05-21 2023-05-19 北京计算机技术及应用研究所 一种基于云端模式的跨平台健康管理系统
CN111629043A (zh) * 2020-05-21 2020-09-04 北京计算机技术及应用研究所 一种基于云端模式的跨平台健康管理系统
CN113505165A (zh) * 2021-07-05 2021-10-15 曙光信息产业(北京)有限公司 传感器数据的处理方法、装置、计算机设备及存储介质
CN114513522A (zh) * 2022-01-04 2022-05-17 武汉烽火技术服务有限公司 一种北向接口资源导出系统
CN114513522B (zh) * 2022-01-04 2023-05-16 武汉烽火技术服务有限公司 一种北向接口资源导出系统
CN114884726A (zh) * 2022-05-06 2022-08-09 广东申立信息工程股份有限公司 一种用于监控idc数据安全的管理系统
CN117333981A (zh) * 2023-10-31 2024-01-02 浙江泰源科技有限公司 一种机房集成监控管理方法与系统
CN117333981B (zh) * 2023-10-31 2024-03-22 浙江泰源科技有限公司 一种机房集成监控管理方法与系统

Similar Documents

Publication Publication Date Title
CN108092813A (zh) 数据中心综合管理系统服务器硬件管理框架及实现方法
US11640465B2 (en) Methods and systems for troubleshooting applications using streaming anomaly detection
US9275172B2 (en) Systems and methods for analyzing performance of virtual environments
CN104281130B (zh) 一种基于大数据技术的水电设备监测和故障诊断系统
US10530740B2 (en) Systems and methods for facilitating closed loop processing using machine learning
KR102001898B1 (ko) 알람 정보 처리 방법, 관련 디바이스 및 시스템
CN109214704A (zh) 一种分布式智能化运维平台、方法、装置及可读存储介质
CN101095307A (zh) 网络管理设备
CN108259270A (zh) 一种数据中心统一管理系统设计方法
CN107786616A (zh) 基于云端的主机智能监控系统
US20200067772A1 (en) Data network and execution environment replication for network automation and network applications
CN106201754A (zh) 任务信息分析方法及装置
CN105391800B (zh) 基于“互联网+”医疗设备故障自检与修复系统
CN103973815A (zh) 一种跨数据中心存储环境统一监控方法
CN108777637A (zh) 一种支持服务器异构的数据中心综合管理系统和方法
CN103593804A (zh) 一种电力信息通信调度监控平台
CN106210124B (zh) 一种统一的云数据中心监控系统
US10892947B2 (en) Managing cross-cloud distributed application
CN107910956A (zh) 一种主厂站一体化的电网调度自动化运行综合监管方法
Becker et al. Towards aiops in edge computing environments
US11212173B2 (en) Model-driven technique for virtual network function rehoming for service chains
CN105022823B (zh) 一种基于数据挖掘的云服务性能预警事件生成方法
CN109241154A (zh) 一种分布式数据库监控分析方法及系统
CN112448833B (zh) 一种多管理域的通信方法和装置
CN103078764A (zh) 基于虚拟计算任务的运行监测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180529

RJ01 Rejection of invention patent application after publication