CN103200050B - 服务器的硬件状态监控方法和系统 - Google Patents

服务器的硬件状态监控方法和系统 Download PDF

Info

Publication number
CN103200050B
CN103200050B CN201310128124.3A CN201310128124A CN103200050B CN 103200050 B CN103200050 B CN 103200050B CN 201310128124 A CN201310128124 A CN 201310128124A CN 103200050 B CN103200050 B CN 103200050B
Authority
CN
China
Prior art keywords
fault
server
hardware
hardware state
fault message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310128124.3A
Other languages
English (en)
Other versions
CN103200050A (zh
Inventor
刘凯
莫林林
孙墨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310128124.3A priority Critical patent/CN103200050B/zh
Publication of CN103200050A publication Critical patent/CN103200050A/zh
Application granted granted Critical
Publication of CN103200050B publication Critical patent/CN103200050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提出一种服务器的硬件状态监控方法,包括如下步骤:对多个服务器进行智能型平台管理接口ipmi带外硬件巡检以获取每个服务器的硬件状态;根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤并获取每个服务器的故障信息和故障等级;对故障等级和故障信息进行分析,根据分析结果选择性地将故障信息推送至事务处理平台以由事务处理平台对故障进行排除。本发明自动化进行状态监控,更加方便、精确、高效,并为日常运维提供准确的故障预警,在节约人工成本的同时,完善了服务器的自动化运维标准.本发明还公开了一种服务器的硬件状态监控系统。

Description

服务器的硬件状态监控方法和系统
技术领域
本发明涉及计算机技术领域,特别涉及一种服务器的硬件状态监控方法和系统。
背景技术
服务器管理资源并为用户提供服务,是互联网中非常重要的一环。相对于普通计算机来说,服务器在稳定性、安全性、性能等方面都要求更高。
当服务器上线后,为了确保服务器正常安全的工作,一般每日由特定的驻场工作人员进行早晚各一次的服务器硬件巡检任务。主要对于服务器硬盘状态指示灯、内存状态灯、电源状态灯、内部状态灯和外部状态灯的异常状况进行手工记录,并在下一个工作日进行数据汇总、上传。然后再由人工确认故障配件对服务器运行影响范围,并进行优先级设定后向事务处理平台数据推送数据。
现有技术主要有如下缺点:
(一)、服务器运行状态由人工进行监控,当大批量服务器线上运行时,至少需要分配2至3人进行早,晚各一次例行巡检,耗费人力、执行效率低且精度不高。并且人工现场查看设备运行状态,在接触设备的同时易造成网络中断或其它异常,无法避免因人为疏忽导致故障漏报或响应不及时。
(二)、对日常故障诊断效率低。当线上设备有异常时,无法第一时间获取足够的有效信息,排查效率不高,且发生故障的时候,已经对线上服务造成影响,无法做到线上设备异常预报警。在大批量服务器的状态下,集群可运维效率低。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于提出一种服务器的硬件状态监控方法。本方法自动化进行状态监控,更加方便、精确、高效,并为日常运维提供准确的故障预警,在节约人工成本的同时,完善了服务器的自动化运维标准。
本发明的第二个目的在于提出一种服务器的硬件状态监控系统。
为达到上述目的,本发明第一方面的实施例提出了一种服务器的硬件状态监控方法,包括如下步骤:对多个服务器进行智能型平台管理接口ipmi带外硬件巡检以获取每个所述服务器的硬件状态;根据所述硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤并获取每个所述服务器的故障信息和故障等级;对所述故障等级和故障信息进行分析,根据分析结果选择性地将故障信息推送至事务处理平台以由所述事务处理平台对故障进行排除。
根据本发明实施例的服务器的硬件状态监控方法自动化对大批量服务器硬件运行状态进行监控,解决了当前大批量服务器人工巡检的故障遗漏以及响应不及时的问题,在节省了人力巡检成本的支出的同时,避免了人为造成设备异常中断的影响,且大大提高了日常运维效率及故障预判.同时增强业务监控部署变更的灵活性及可操控性。
当日常故障发生时,可以调用监控数据库,实时查询服务器硬件运行状态,及时发现目常异常服务器报警信息,从而方便快速进行配件报修及更换响应,为新设备集中到货提供运维保障及技术支持,同时数据库的信息储备便于新服务器到货质量统计。在技术要求降低的同时,带来更多的可操控性,同时批量监控的预判给集中正常运行提高必要的数据参考及技术保证。
在本发明的一个实施例中,所述对多个服务器进行ipmi带外硬件,包括如下步骤:启动对服务器的定时监控任务;嵌入ipmitool工具;检测是否介入ilo网络;如果是,则利用ipmitool工具对服务器进行硬件状态监控,否则记录故障信息。
在本发明的一个实施例中,所述利用ipmitool工具对服务器进行硬件状态监控,包括如下步骤:通过API接口汇总各IDC的内网IP地址列表,定时并发对所述多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。
在本发明的一个实施例中,所述根据硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤采用自动或手动方式执行。
在本发明的一个实施例中,所述对所述故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。
本发明第二方面的实施例提出了一种服务器的硬件状态监控系统,包括:带外巡检模块、故障等级划分模块、故障分析模块和推送模块。
其中,带外巡检模块用于对多个服务器进行智能型平台管理接口ipmi带外硬件巡检以获取每个所述服务器的硬件状态;故障等级划分模块用于根据所述硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤并获取每个所述服务器的故障信息和故障等级;故障分析模块用于对所述故障等级和故障信息进行分析;推送模块用于根据分析结果选择性地将故障信息推送至事务处理平台以由所述事务处理平台对故障进行排除。
根据本发明实施例的服务器的硬件状态监控系统自动化对大批量服务器硬件运行状态进行监控,解决了当前大批量服务器人工巡检的故障遗漏以及响应不及时的问题,在节省了人力巡检成本的支出的同时,避免了人为造成设备异常中断的影响,且大大提高了日常运维效率及故障预判.同时增强业务监控部署变更的灵活性及可操控性。
当日常故障发生时,可以调用监控数据库,实时查询服务器硬件运行状态,及时发现目常异常服务器报警信息,从而方便快速进行配件报修及更换响应,为新设备集中到货提供运维保障及技术支持,同时数据库的信息储备便于新服务器到货质量统计。在技术要求降低的同时,带来更多的可操控性,同时批量监控的预判给集中正常运行提高必要的数据参考及技术保证。
在本发明的一个实施例中,所述带外巡检模块用于启动对服务器的定时监控任务,嵌入ipmitool工具,并检测是否介入ilo网络,如果是,则利用ipmitool工具对服务器进行硬件状态监控,否则记录故障信息。
在本发明的一个实施例中,所述带外巡检模块通过API接口汇总各IDC的内网IP地址列表,定时并发对所述多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。
在本发明的一个实施例中,所述故障等级划分模块根据硬件状态和预设故障知识库采用自动或手动方式对每个所述服务器进行故障等级过滤。
在本发明的一个实施例中,所述故障分析模块对所述故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的服务器的硬件状态监控方法的流程图;
图2是根据本发明另一个实施例的服务器的硬件状态监控方法的流程图;和
图3是根据本发明实施例的服务器的硬件状态监控系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
下面参考图1描述根据本发明实施例的服务器的硬件状态监控方法,包括如下步骤:
步骤S110:对多个服务器进行智能型平台管理接口ipmi(智能平台管理接口)带外硬件巡检以获取每个服务器的硬件状态。
对多个服务器进行ipmi带外硬件,包括如下步骤:
步骤S111:启动对服务器的定时监控任务。
步骤S112:嵌入ipmitool工具。
步骤S113:检测是否介入ilo网络。
步骤S114:如果是,则利用ipmitool工具对服务器进行硬件状态监控,否则记录故障信息。
在本发明的一个实施例中,利用ipmitool工具对服务器进行硬件状态监控,包括如下步骤:通过API接口汇总各IDC的内网IP地址列表,定时并发对多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。
步骤S120:根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤并获取每个服务器的故障信息和故障等级。
其中,根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤采用自动或手动方式执行。
步骤S130:对故障等级和故障信息进行分析,根据分析结果选择性地将故障信息推送至事务处理平台以由事务处理平台对故障进行排除。
其中,对故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。
下面参考图2通过本发明的一个实施例对根据本方法进行说明,可以理解的是,下述说明仅出于示例目的,根据本发明的实施例不限于此。
步骤S201,部署服务器集群,启动对服务器的定时监控任务,根据各厂商对ipmi的支持情况。具体地,每日凌晨监控服务器的crontab,即启动对服务器的定时监控任务。
步骤S202,嵌入ipmitool工具,通过进行ipmitool编译嵌入ipmitool工具HWMonitor.py,使之最大限度支持所有均衡型服务器的传感器信息监控范围。ipmitool是一种linux系统下的命令行方式的IPMI平台管理工具。
步骤S203,检测是否介入ilo网络,如果不是,则执行步骤S206,否则执行步骤S204。
步骤S204,通过API接口汇总各IDC的内网IP地址列表,定时并发对多个服务器进行ipmi带外硬件巡检以实现对服务器的带外监控,并发多个tcp连接。例如,设置每天凌晨并发对所有设备进行ipmi带外硬件巡检,并发150个tcp连接,2小时之内完成至少6w台设备的硬件状态巡检任务。每天自动巡检数据库录入信息如表1所示。
表1
步骤S205,根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤并获取每个服务器的故障信息和故障等级。其中,根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤采用自动或手动方式执行。
例如,每天脚本执行前自动对字段mon_serial加1,通过加1来保证当天所有上传至数据库的记录中,该字段值为最大,从而方便进行故障等级过滤。如表2、表3所示,根据收集的故障信息,针对不同硬件厂商预设的故障监控字段进行故障分类。
表2
表3
步骤S206,利用MySQLdb记录故障信息。
步骤S207,对故障等级和故障信息进行分析,根据分析结果选择性地将故障信息推送至事务处理平台以由事务处理平台对故障进行排除。根据各故障配件的故障描述进行相应的硬件故障预报警。并根据配件对整机的影响范围智能进行判断是否需要推送至事务处理平台进行处理。
步骤S208,每日自动巡检结束。
当日常故障发生时,首先调用监控数据库,可以及时发现目常异常服务器的报警信息,从而方便快速的进行配件报修以及更换响应。此外,可以对新设备集中到货提供运维保障及技术支持,数据库的信息储备便于新服务器到货质量统计。这样可以避免当故障发生时,由内核到OS,由BIOS到硬件逐步诊断的过程,在降低技术要求的同时带来更多的可操控性,批量监控的预判给集中正常运行提供了必要的数据参考及技术保证。
根据本发明实施例的服务器的硬件状态监控方法对ipmitool进行嵌入,根据不同厂商服务器硬件工作特点及设计描述进行功能完善,最大限度扩展标准bmc对硬件传感器信息的可识别范围。通过智能识别硬件状态数据,解决了当前大批量服务器人工巡检的故障遗漏及响应不及时问题,自动化解决大批量服务器硬件运行状态监控任务,实现均衡型服务器监控范围达到95%覆盖,节省人力巡检成本的支出,大幅度提高服务器日常使用效率,为业务部署及正常运行提供足够的安全保障,高效且精准。为日常运维提供准确的故障预警,实现实时查询服务器硬件运行状态,针对业务突发状况或性能异常能够快速故障定位及提供必要运行参数,缩短故障影响时间同时提供故障预警机制给业务部署调整带来足够时间保证。在故障发生时段提供必要的数据参考。本方法在节约人工成本的同时,最大限度的完善集群自动化运维标准。
下面参考图3描述根据本发明实施例的服务器的硬件状态监控系统100,带外巡检模块110、故障等级划分模块120、故障分析模块130和推送模块140。
其中,带外巡检模块110用于对多个服务器进行智能型平台管理接口ipmi带外硬件巡检以获取每个服务器的硬件状态;故障等级划分模块120用于根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤并获取每个服务器的故障信息和故障等级;故障分析模块130用于对故障等级和故障信息进行分析;推送模块140用于根据分析结果选择性地将故障信息推送至事务处理平台以由事务处理平台对故障进行排除。
在本发明的一个实施例中,带外巡检模块110用于启动对服务器的定时监控任务,嵌入ipmitool工具,并检测是否介入ilo网络,如果是,则利用ipmitool工具对服务器进行硬件状态监控,否则记录故障信息。
其中,带外巡检模块110通过API接口汇总各IDC的内网IP地址列表,定时并发对多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。
此外,故障等级划分模块120根据硬件状态和预设故障知识库采用自动或手动方式对每个服务器进行故障等级过滤。
故障分析模块130对故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。
下面通过本发明的一个实施例对根据本系统进行说明,可以理解的是,下述说明仅出于示例目的,根据本发明的实施例不限于此。
部署服务器集群,带外巡检模块110启动对服务器的定时监控任务,根据各厂商对ipmi的支持情况,带外巡检模块110通过进行ipmitool编译嵌入ipmitool工具,使之最大限度支持所有均衡型服务器的传感器信息监控范围。
带外巡检模块110检测是否介入ilo网络。
如果不是,带外巡检模块110则记录故障信息。
如果是,带外巡检模块110则通过API接口汇总各IDC的内网IP地址列表,定时并发对多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。例如,带外巡检模块110设置每天凌晨并发对所有设备进行ipmi带外硬件巡检,并发150个tcp连接,2小时之内完成至少6w台设备的硬件状态巡检任务。带外巡检模块110每天自动巡检数据库录入信息如表1所示。
故障等级划分模块120根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤并获取每个服务器的故障信息和故障等级。其中,故障等级划分模块120根据硬件状态和预设故障知识库对每个服务器进行故障等级过滤采用自动或手动方式执行。
例如,带外巡检模块110每天脚本执行前自动对字段mon_serial加1,通过加1来保证当天所有上传至数据库的记录中,该字段值为最大,从而方便进行故障等级过滤。如表2、表3所示,根据带外巡检模块110收集的故障信息,故障等级划分模块120针对不同硬件厂商预设的故障监控字段进行故障分类。
故障分析模块130对故障等级和故障信息进行分析,推送模块140根据分析结果选择性地将故障信息推送至事务处理平台以由事务处理平台对故障进行排除。故障分析模块130可以根据各故障配件的故障描述进行相应的硬件故障预报警。故障分析模块130根据配件对整机的影响范围智能进行判断,由推送模块140选择推送至事务处理平台进行处理。
当日常故障发生时,首先调用监控数据库,可以及时发现目常异常服务器的报警信息,从而方便快速的进行配件报修以及更换响应。此外,可以对新设备集中到货提供运维保障及技术支持,数据库的信息储备便于新服务器到货质量统计。这样可以避免当故障发生时,由内核到OS,由BIOS到硬件逐步诊断的过程,在降低技术要求的同时带来更多的可操控性,批量监控的预判给集中正常运行提供了必要的数据参考及技术保证。
根据本发明实施例的服务器的硬件状态监控系统对ipmitool进行嵌入,根据不同厂商服务器硬件工作特点及设计描述进行功能完善,最大限度扩展标准bmc对硬件传感器信息的可识别范围。通过智能识别硬件状态数据,解决了当前大批量服务器人工巡检的故障遗漏及响应不及时问题,自动化解决大批量服务器硬件运行状态监控任务,实现均衡型服务器监控范围达到95%覆盖,节省人力巡检成本的支出,大幅度提高服务器日常使用效率,为业务部署及正常运行提供足够的安全保障,高效且精准。为日常运维提供准确的故障预警,实现实时查询服务器硬件运行状态,针对业务突发状况或性能异常能够快速故障定位及提供必要运行参数,缩短故障影响时间同时提供故障预警机制给业务部署调整带来足够时间保证。在故障发生时段提供必要的数据参考。本系统在节约人工成本的同时,最大限度的完善集群自动化运维标准。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (6)

1.一种服务器的硬件状态监控方法,其特征在于,包括如下步骤:
启动对服务器的定时监控任务;
嵌入ipmitool工具;
检测是否介入服务器远程管理ilo网络;
如果是,则通过API接口汇总各互联网数据中心IDC的内网IP地址列表,定时并发对多个服务器进行ipmi带外硬件巡检,并发多个tcp连接,否则记录故障信息,以获取每个所述服务器的硬件状态;
根据所述硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤并获取每个所述服务器的故障信息和故障等级,其中,根据所述故障信息,针对不同硬件厂商预设的故障监控字段进行故障分类;以及
对所述故障等级和故障信息进行分析,根据分析结果选择性地将故障信息推送至事务处理平台以由所述事务处理平台对故障进行排除。
2.如权利要求1所述方法,其特征在于,所述根据硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤采用自动或手动方式执行。
3.如权利要求1所述方法,其特征在于,所述对所述故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。
4.一种服务器的硬件状态监控系统,其特征在于,包括:
带外巡检模块,用于启动对服务器的定时监控任务,嵌入ipmitool工具,并检测是否介入服务器远程管理ilo网络,如果是,则通过API接口汇总各互联网数据中心IDC的内网IP地址列表,定时并发对多个服务器进行ipmi带外硬件巡检,并发多个tcp连接,否则记录故障信息,以获取每个所述服务器的硬件状态;
故障等级划分模块,用于根据所述硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤并获取每个所述服务器的故障信息和故障等级,其中,根据所述故障信息,针对不同硬件厂商预设的故障监控字段进行故障分类;
故障分析模块,用于对所述故障等级和故障信息进行分析;以及
推送模块,用于根据分析结果选择性地将故障信息推送至事务处理平台以由所述事务处理平台对故障进行排除。
5.如权利要求4所述系统,其特征在于,所述故障等级划分模块根据硬件状态和预设故障知识库采用自动或手动方式对每个所述服务器进行故障等级过滤。
6.如权利要求4所述系统,其特征在于,所述故障分析模块对所述故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。
CN201310128124.3A 2013-04-12 2013-04-12 服务器的硬件状态监控方法和系统 Active CN103200050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310128124.3A CN103200050B (zh) 2013-04-12 2013-04-12 服务器的硬件状态监控方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310128124.3A CN103200050B (zh) 2013-04-12 2013-04-12 服务器的硬件状态监控方法和系统

Publications (2)

Publication Number Publication Date
CN103200050A CN103200050A (zh) 2013-07-10
CN103200050B true CN103200050B (zh) 2016-12-28

Family

ID=48722416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310128124.3A Active CN103200050B (zh) 2013-04-12 2013-04-12 服务器的硬件状态监控方法和系统

Country Status (1)

Country Link
CN (1) CN103200050B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346221B (zh) * 2013-08-02 2018-05-08 北京百度网讯科技有限公司 服务器硬件设备等级划分、调度管理方法及装置、服务器
CN103812699A (zh) * 2014-02-17 2014-05-21 无锡华云数据技术服务有限公司 基于云计算的监控管理系统
CN103986623A (zh) * 2014-05-28 2014-08-13 山东超越数控电子有限公司 一种基于国产操作系统的硬件设备自动监控系统
CN105224426A (zh) * 2014-06-09 2016-01-06 中兴通讯股份有限公司 物理主机故障检测方法、装置及虚机管理方法、系统
CN104378246B (zh) * 2014-12-09 2018-04-06 福建星网锐捷网络有限公司 一种网络设备故障定位系统、方法及装置
CN104657150B (zh) * 2015-03-13 2018-01-02 浪潮集团有限公司 一种集群环境下的自动化运维方法
CN105119772B (zh) * 2015-07-23 2020-03-06 浪潮电子信息产业股份有限公司 一种c/s架构ipmi功能测试方法
CN105071995A (zh) * 2015-08-28 2015-11-18 北京华青融天技术有限责任公司 一种基于带外网络的网络设备巡检方法、装置及系统
CN105897464B (zh) * 2016-03-30 2019-08-23 国网福建省电力有限公司 基于mac地址控制的电力内网远程应用程序监测方法
CN105959130A (zh) * 2016-04-13 2016-09-21 乐视控股(北京)有限公司 一种基于大数据运维的监控方法和装置
CN107395379A (zh) * 2016-05-16 2017-11-24 北京京东尚科信息技术有限公司 一种集群巡检系统及方法
CN109101354A (zh) * 2017-06-20 2018-12-28 深圳中电长城信息安全系统有限公司 一种故障信息的监测方法及其装置
CN107403225B (zh) * 2017-06-23 2020-12-01 深圳市盛路物联通讯技术有限公司 一种共享设备故障报修方法及装置
CN108390767A (zh) * 2017-12-11 2018-08-10 郑州云海信息技术有限公司 一种测试服务器报警集中监控的系统
CN108280019A (zh) * 2018-01-08 2018-07-13 郑州云海信息技术有限公司 一种评估服务器健康状态的方法
CN108199901B (zh) * 2018-01-24 2021-06-29 郑州云海信息技术有限公司 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN109032889A (zh) * 2018-07-11 2018-12-18 广东水利电力职业技术学院(广东省水利电力技工学校) 一种新型液冷式服务器系统及管理方法、计算机程序
CN109167681B (zh) * 2018-08-07 2021-08-17 北京云迹科技有限公司 状态监控方法及装置
CN110858345A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 物料检测方法和装置
CN109783314A (zh) * 2018-12-26 2019-05-21 广州裕鼎信息科技有限公司 It设备监控管理方法及服务器
CN110119325A (zh) * 2019-05-10 2019-08-13 深圳前海微众银行股份有限公司 服务器故障处理方法、装置、设备及计算机可读存储介质
CN111130920B (zh) * 2019-11-26 2022-03-11 网宿科技股份有限公司 硬件信息获取方法、装置、服务器及存储介质
CN111679956A (zh) * 2020-05-07 2020-09-18 上海正网信息技术有限公司 一种带外管理系统及管理方法
CN112383435B (zh) * 2020-11-17 2022-03-29 珠海大横琴科技发展有限公司 一种故障处理的方法和装置
CN113419923A (zh) * 2021-07-21 2021-09-21 成都晶宝星云科技有限公司 自动化平台巡检方法
CN114116395B (zh) * 2021-11-26 2023-11-14 苏州浪潮智能科技有限公司 一种老化室供电线路功率过载防护方法、系统及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101132301A (zh) * 2006-08-25 2008-02-27 上海未来宽带技术及应用工程研究中心有限公司 分布式节点动态管理数据自适应交换方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1198407C (zh) * 2003-07-08 2005-04-20 大唐移动通信设备有限公司 通信系统中实现高可用性(ha)的装置和方法
CN100347674C (zh) * 2004-06-09 2007-11-07 宏正自动科技股份有限公司 智能平台管理接口系统及其执行方法
CN100371903C (zh) * 2004-09-09 2008-02-27 英业达股份有限公司 一种智能平台事件报警系统及其方法
CN100495978C (zh) * 2004-12-21 2009-06-03 中国联合通信有限公司 一种用于通信网络中的故障定位方法及装置
CN1808395A (zh) * 2005-01-18 2006-07-26 英业达股份有限公司 计算机可执行的硬件监控的方法
CN1984170B (zh) * 2005-12-15 2011-05-11 中国移动通信集团公司 对网络告警信息的处理方法
CN101201786B (zh) * 2006-12-13 2010-05-19 中兴通讯股份有限公司 一种故障日志监控方法及装置
CN100558050C (zh) * 2007-10-10 2009-11-04 上海可鲁系统软件有限公司 一种远程监控或维护的方法及装置
CN101685301B (zh) * 2009-07-29 2011-08-31 东华大学 复杂工况下数控机床嵌入式状态监控信息适配器及方法
CN102571441B (zh) * 2012-01-18 2017-03-15 百度在线网络技术(北京)有限公司 整机柜智能管理方法、系统及装置
CN202663201U (zh) * 2012-07-30 2013-01-09 广东汇盈电力工程有限公司 110kv分级式变电监控系统
CN102800038B (zh) * 2012-08-13 2016-05-18 南京鑫三强科技实业有限公司 基于物联网与云计算的智慧教育e卡通系统平台
CN102916839A (zh) * 2012-10-26 2013-02-06 南宁职业技术学院 一种糖厂农务自动化监管系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101132301A (zh) * 2006-08-25 2008-02-27 上海未来宽带技术及应用工程研究中心有限公司 分布式节点动态管理数据自适应交换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
智能服务器电源管理平台技术研究与实现;刘龙;《中国优秀硕士学位论文全文数据库信息科技辑》;20130228;I137-104 *

Also Published As

Publication number Publication date
CN103200050A (zh) 2013-07-10

Similar Documents

Publication Publication Date Title
CN103200050B (zh) 服务器的硬件状态监控方法和系统
CN105306272B (zh) 信息系统故障场景信息收集方法及系统
US9509895B2 (en) Pan-tilt-zoom device identification method, pan-tilt-zoom device, camera, and pan-tilt-zoom device control system
CN110716842B (zh) 集群故障检测方法和装置
CN101753357A (zh) 一种网络服务器集中监控系统和方法
CN105337765A (zh) 一种分布式hadoop集群故障自动诊断修复系统
WO2017161964A1 (zh) 通讯网络巡检的方法、装置及巡检客户端
CN1913452A (zh) 一种通信网络智能巡检的方法及设备
CN104125085B (zh) 一种基于esb的数据管控方法及装置
CN109462490B (zh) 视频监控系统及故障分析方法
CN110134518A (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
CN106130778A (zh) 一种处理集群故障的方法及一种管理节点
CN109274531A (zh) 数据采集设备重启方法、系统及计算机可读存储介质
CN103544091A (zh) Windows进程的监控方法及装置
CN104932978A (zh) 一种系统运行故障自检测及自修复的方法和系统
CN108174400B (zh) 一种终端设备的数据处理方法及系统、设备
CN111341063A (zh) 用电设备安全预警监测智控系统、方法、装置及终端设备
CN105630647A (zh) 一种设备检测方法及检测设备
CN107204868B (zh) 一种任务运行监控信息获取方法和装置
CN105099762A (zh) 一种系统运维功能的自检方法及自检系统
CN112532433B (zh) 一种基于ping和电流特征的通用网络设备故障分析方法
CN103558819A (zh) 一种切片机故障诊断系统
CN107229499B (zh) 用于电力采集系统故障终端检测的主站模拟系统及检测方法
KR101433045B1 (ko) 사전 장애 탐지 시스템 및 방법
CN105045100A (zh) 一种利用海量数据进行管理的智能运维监控平台

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant