CN109254895A - 一种基于bmc的高性能服务器故障分析预测方法 - Google Patents

一种基于bmc的高性能服务器故障分析预测方法 Download PDF

Info

Publication number
CN109254895A
CN109254895A CN201810955056.0A CN201810955056A CN109254895A CN 109254895 A CN109254895 A CN 109254895A CN 201810955056 A CN201810955056 A CN 201810955056A CN 109254895 A CN109254895 A CN 109254895A
Authority
CN
China
Prior art keywords
module
bmc
acquisition
performance
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810955056.0A
Other languages
English (en)
Inventor
于治楼
李保来
王万强
宋宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Chaoyue CNC Electronics Co Ltd
Original Assignee
Shandong Chaoyue CNC Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Chaoyue CNC Electronics Co Ltd filed Critical Shandong Chaoyue CNC Electronics Co Ltd
Priority to CN201810955056.0A priority Critical patent/CN109254895A/zh
Publication of CN109254895A publication Critical patent/CN109254895A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于BMC的高性能服务器故障分析预测方法,涉及数据处理分析领域;BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。

Description

一种基于BMC的高性能服务器故障分析预测方法
技术领域
本发明公开一种故障分析预测方法,涉及数据处理分析领域,具体地说是一种基于BMC的高性能服务器故障分析预测方法。
背景技术
高性能计算(High Perfermance Computing)服务器,简称HPC服务器。这类机群主要解决大规模科学问题的计算和海量数据的处理,在科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等方面广泛应用。从服务器长时间高效运行的应用环境看,高性能服务器计算负载量较大,对高效散热、芯片电压和温度的稳定性以及处理器运行状态的稳定性等提出了更高的要求。本发明提供一种基于BMC的高性能服务器故障分析预测方法,基于高性能服务器基板控制器BMC,通过对整机温度、电压等状态信息、风扇转速、电源运行状态、系统配置信息采集,对异常信息进行告警处理,并实时在BMC控制台上显示,实现故障的自动检测及告警。
发明内容
本发明针对现有技术存在的不足和问题,提供一种基于BMC的高性能服务器故障分析预测方法,解决了高性能服务器无法提前预测故障的问题,为高性能服务器提供了一种高效维护管理的技术途径,实现高性能服务器智能故障分析和预测的技术,实现高性能服务器的稳定运行和持续可靠提供业务,降低故障率,提高了服务器的可用性。
本发明提出的具体方案是:
一种基于BMC的高性能服务器故障分析预测系统,包括BMC控制台、BMC自主智能学习模块、性能采集模块、资源数据采集模块、警告采集模块、系统管理功能模块、知识模块,
其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
所述的系统中知识模块包括数据库知识模块、操作系统知识模块和业务应用知识模块,数据库知识模块、操作系统知识模块和业务应用知识模块分别存储相应的数据信息。
一种基于BMC的高性能服务器故障分析预测方法,利用所述的系统进行高性能服务器故障分析预测,其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
所述的方法中知识模块包括数据库知识模块、操作系统知识模块和业务应用知识模块,利用数据库知识模块、操作系统知识模块和业务应用知识模块分别存储相应的数据信息。
所述的方法的具体步骤为:
部署BMC自主智能学习模块、性能采集模块和资源数据采集模块、系统管理功能模块和警告采集模块,同时,完成对操作系统知识模块、数据库知识模块和业务应用模块以及BMC控制台的部署;
通过性能采集模块及资源数据采集模块进行高性能服务器的性能和资源数据采集,通过系统管理功能模块进行系统运行状态信息的采集,并存储到本地历史数据库;
BMC自主智能学习模块对获取的性能和资源数据以及系统运行状态信息进行筛选,并将筛选后数据存放在本地历史数据库;
BMC自主智能学习模块对数据库知识模块、操作系统知识模块和业务应用知识模块的历史数据进行学习,分析预测故障的发展趋势和发生概率;
BMC自主智能学习模块根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略;
BMC控制台实时显示故障分析和预测结果信息,同时高性能服务器使用者根据故障预测进行操作的决策。
本发明的有益之处是:
本发明提供一种基于BMC的高性能服务器故障分析预测方法,相对于现有高性能服务器故障分析预测,本发明分别设计性能采集模块和资源数据采集模块、系统管理功能模块进行信息的分属采集,有利于BMC自主智能学习模块进行分析筛选和学习对故障的发展趋势进行预测,并可将不同数据信息放置在数据库知识模块、操作系统知识模块、业务应用知识模块、历史数据库中,便于信息的提取和有效分析,有效提高了故障分析能力和故障预测能力,同时通过BMC控制台进行综合调度和信息分析,实时显示故障的自动检测及告警。实现高性能服务器智能故障分析和预测的技术,实现高性能服务器的稳定运行和持续可靠提供业务,降低故障率,提高了服务器的可用性。
附图说明
图1是本发明系统的相互关系示意图;
图2是本发明方法流程示意图。
具体实施方式
本发明提供一种基于BMC的高性能服务器故障分析预测系统,包括BMC控制台、BMC自主智能学习模块、性能采集模块、资源数据采集模块、警告采集模块、系统管理功能模块、知识模块,
其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
同时提供与上述系统相对应的一种基于BMC的高性能服务器故障分析预测方法,利用所述的系统进行高性能服务器故障分析预测,其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
利用本发明方法和系统,对Intel Xeon E5 V4系列处理器,6U高度的平台部署BMC自主智能学习模块、性能采集模块和资源数据采集模块、系统管理功能模块和警告采集模块,同时,完成对操作系统知识模块、数据库知识模块和业务应用模块以及BMC控制台的部署;
通过性能采集模块及资源数据采集模块进行高性能服务器的性能和资源数据采集,通过系统管理功能模块进行系统运行状态信息的采集,并存储到本地历史数据库;
BMC自主智能学习模块对获取的性能和资源数据以及系统运行状态信息进行筛选,并将筛选后数据存放在本地历史数据库;
BMC自主智能学习模块对数据库知识模块、操作系统知识模块和业务应用知识模块的历史数据进行学习,分析预测故障的发展趋势和发生概率;
BMC自主智能学习模块根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略;
BMC控制台实时显示故障分析和预测结果信息,同时高性能服务器使用者根据故障预测进行操作的决策。
利用本发明为高性能服务器提供了一种高效维护管理的技术途径,实现高性能服务器智能故障分析和预测的技术,实现高性能服务器的稳定运行和持续可靠提供业务,降低故障率,提高了服务器的可用性。

Claims (5)

1.一种基于BMC的高性能服务器故障分析预测系统,其特征是
包括BMC控制台、BMC自主智能学习模块、性能采集模块、资源数据采集模块、警告采集模块、系统管理功能模块、知识模块,
其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
2.根据权利要求1所述的系统,其特征是所述知识模块包括数据库知识模块、操作系统知识模块和业务应用知识模块,数据库知识模块、操作系统知识模块和业务应用知识模块分别存储相应的数据信息。
3.一种基于BMC的高性能服务器故障分析预测方法,其特征是利用权利要求1或2所述的系统进行高性能服务器故障分析预测,其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
4.根据权利要求1所述的方法,其特征是知识模块包括数据库知识模块、操作系统知识模块和业务应用知识模块,利用数据库知识模块、操作系统知识模块和业务应用知识模块分别存储相应的数据信息。
5.根据权利要求3所述的方法,其特征是具体步骤为:
部署BMC自主智能学习模块、性能采集模块和资源数据采集模块、系统管理功能模块和警告采集模块,同时,完成对操作系统知识模块、数据库知识模块和业务应用模块以及BMC控制台的部署;
通过性能采集模块及资源数据采集模块进行高性能服务器的性能和资源数据采集,通过系统管理功能模块进行系统运行状态信息的采集,并存储到本地历史数据库;
BMC自主智能学习模块对获取的性能和资源数据以及系统运行状态信息进行筛选,并将筛选后数据存放在本地历史数据库;
BMC自主智能学习模块对数据库知识模块、操作系统知识模块和业务应用知识模块的历史数据进行学习,分析预测故障的发展趋势和发生概率;
BMC自主智能学习模块根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略;
BMC控制台实时显示故障分析和预测结果信息,同时高性能服务器使用者根据故障预测进行操作的决策。
CN201810955056.0A 2018-08-21 2018-08-21 一种基于bmc的高性能服务器故障分析预测方法 Pending CN109254895A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810955056.0A CN109254895A (zh) 2018-08-21 2018-08-21 一种基于bmc的高性能服务器故障分析预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810955056.0A CN109254895A (zh) 2018-08-21 2018-08-21 一种基于bmc的高性能服务器故障分析预测方法

Publications (1)

Publication Number Publication Date
CN109254895A true CN109254895A (zh) 2019-01-22

Family

ID=65048854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810955056.0A Pending CN109254895A (zh) 2018-08-21 2018-08-21 一种基于bmc的高性能服务器故障分析预测方法

Country Status (1)

Country Link
CN (1) CN109254895A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992477A (zh) * 2019-03-27 2019-07-09 联想(北京)有限公司 用于电子设备的信息处理方法、系统以及电子设备
CN111737092A (zh) * 2020-06-06 2020-10-02 苏州浪潮智能科技有限公司 一种基于无状态计算的服务器自动化运维系统及方法
CN112685245A (zh) * 2020-12-11 2021-04-20 贵州电网有限责任公司 一种虚拟机能耗管控方法
CN112965891A (zh) * 2021-03-10 2021-06-15 山东英信计算机技术有限公司 一种基于服务器测试风扇性能监控的测试方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662788A (zh) * 2012-04-28 2012-09-12 浪潮电子信息产业股份有限公司 一种计算机系统故障诊断决策及处理方法
CN103200039A (zh) * 2012-01-09 2013-07-10 阿里巴巴集团控股有限公司 数据监控方法及装置
CN103488575A (zh) * 2013-08-12 2014-01-01 记忆科技(深圳)有限公司 动态调整固态硬盘预留空间的方法及其固态硬盘
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化系统及方法
EP3079062A1 (en) * 2015-04-09 2016-10-12 Zentrum Mikroelektronik Dresden AG Electronic system and method for estimating and predicting a failure of that electronic system
CN106502871A (zh) * 2016-09-28 2017-03-15 广州汇通国信信息科技有限公司 监管系统的告警阈值动态配置系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200039A (zh) * 2012-01-09 2013-07-10 阿里巴巴集团控股有限公司 数据监控方法及装置
CN102662788A (zh) * 2012-04-28 2012-09-12 浪潮电子信息产业股份有限公司 一种计算机系统故障诊断决策及处理方法
CN103488575A (zh) * 2013-08-12 2014-01-01 记忆科技(深圳)有限公司 动态调整固态硬盘预留空间的方法及其固态硬盘
EP3079062A1 (en) * 2015-04-09 2016-10-12 Zentrum Mikroelektronik Dresden AG Electronic system and method for estimating and predicting a failure of that electronic system
CN106055418A (zh) * 2015-04-09 2016-10-26 微电子中心德累斯顿有限公司 电子系统和用于评估并且预测该电子系统的失效的方法
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化系统及方法
CN106502871A (zh) * 2016-09-28 2017-03-15 广州汇通国信信息科技有限公司 监管系统的告警阈值动态配置系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992477A (zh) * 2019-03-27 2019-07-09 联想(北京)有限公司 用于电子设备的信息处理方法、系统以及电子设备
CN111737092A (zh) * 2020-06-06 2020-10-02 苏州浪潮智能科技有限公司 一种基于无状态计算的服务器自动化运维系统及方法
CN112685245A (zh) * 2020-12-11 2021-04-20 贵州电网有限责任公司 一种虚拟机能耗管控方法
CN112965891A (zh) * 2021-03-10 2021-06-15 山东英信计算机技术有限公司 一种基于服务器测试风扇性能监控的测试方法及装置

Similar Documents

Publication Publication Date Title
CN109254895A (zh) 一种基于bmc的高性能服务器故障分析预测方法
US7667596B2 (en) Method and system for scoring surveillance system footage
US20210027205A1 (en) Machine learning for failure event identification & prediction
CN111770317B (zh) 用于智慧社区的视频监控方法、装置、设备及介质
Zhang et al. A deep-intelligence framework for online video processing
CN111159093B (zh) 异构智能计算系统
Guo et al. Identifying time-of-day breakpoints based on nonintrusive data collection platforms
Ma et al. A survey of video-based crowd anomaly detection in dense scenes
US20220254162A1 (en) Deep learning framework for congestion detection and prediction in human crowds
CN115114342B (zh) 一种数字孪生多源数据异常监测方法及系统
CN104580194A (zh) 面向视频应用的虚拟化资源管理方法及装置
Kwon et al. Toward an online continual learning architecture for intrusion detection of video surveillance
CN111782900A (zh) 异常业务检测方法、装置、电子设备及存储介质
CN115329265A (zh) 图码轨迹关联度确定方法、装置、设备及存储介质
EP4097577A1 (en) Systems and methods for resource analysis, optimization, or visualization
Sinqadu et al. Performance evaluation of a traffic surveillance application using ifogsim
Pudasaini et al. Edge-based video analytic for smart cities
CN107291597A (zh) 一种基于多核异构处理器的运维多模态决策感知系统
US20200074213A1 (en) Gpb algorithm based operation and maintenance multi-modal decision system prototype
Xu et al. Edge Video Analytics: A Survey on Applications, Systems and Enabling Techniques
Kumar Multiparty Collaboration in Edge Computing Systems
Bhardwaj et al. A Novel Architecture for the Smart Pedestrian Crossing in Cities Using IoT-Based Approach
US20230038260A1 (en) Systems and methods for autonomous first response routing
US20240153275A1 (en) Determining incorrect predictions by, and generating explanations for, machine learning models
CN112925741B (zh) 异构计算方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190122

RJ01 Rejection of invention patent application after publication