CN109254895A - 一种基于bmc的高性能服务器故障分析预测方法 - Google Patents
一种基于bmc的高性能服务器故障分析预测方法 Download PDFInfo
- Publication number
- CN109254895A CN109254895A CN201810955056.0A CN201810955056A CN109254895A CN 109254895 A CN109254895 A CN 109254895A CN 201810955056 A CN201810955056 A CN 201810955056A CN 109254895 A CN109254895 A CN 109254895A
- Authority
- CN
- China
- Prior art keywords
- module
- bmc
- acquisition
- performance
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3031—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于BMC的高性能服务器故障分析预测方法,涉及数据处理分析领域;BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
Description
技术领域
本发明公开一种故障分析预测方法,涉及数据处理分析领域,具体地说是一种基于BMC的高性能服务器故障分析预测方法。
背景技术
高性能计算(High Perfermance Computing)服务器,简称HPC服务器。这类机群主要解决大规模科学问题的计算和海量数据的处理,在科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等方面广泛应用。从服务器长时间高效运行的应用环境看,高性能服务器计算负载量较大,对高效散热、芯片电压和温度的稳定性以及处理器运行状态的稳定性等提出了更高的要求。本发明提供一种基于BMC的高性能服务器故障分析预测方法,基于高性能服务器基板控制器BMC,通过对整机温度、电压等状态信息、风扇转速、电源运行状态、系统配置信息采集,对异常信息进行告警处理,并实时在BMC控制台上显示,实现故障的自动检测及告警。
发明内容
本发明针对现有技术存在的不足和问题,提供一种基于BMC的高性能服务器故障分析预测方法,解决了高性能服务器无法提前预测故障的问题,为高性能服务器提供了一种高效维护管理的技术途径,实现高性能服务器智能故障分析和预测的技术,实现高性能服务器的稳定运行和持续可靠提供业务,降低故障率,提高了服务器的可用性。
本发明提出的具体方案是:
一种基于BMC的高性能服务器故障分析预测系统,包括BMC控制台、BMC自主智能学习模块、性能采集模块、资源数据采集模块、警告采集模块、系统管理功能模块、知识模块,
其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
所述的系统中知识模块包括数据库知识模块、操作系统知识模块和业务应用知识模块,数据库知识模块、操作系统知识模块和业务应用知识模块分别存储相应的数据信息。
一种基于BMC的高性能服务器故障分析预测方法,利用所述的系统进行高性能服务器故障分析预测,其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
所述的方法中知识模块包括数据库知识模块、操作系统知识模块和业务应用知识模块,利用数据库知识模块、操作系统知识模块和业务应用知识模块分别存储相应的数据信息。
所述的方法的具体步骤为:
部署BMC自主智能学习模块、性能采集模块和资源数据采集模块、系统管理功能模块和警告采集模块,同时,完成对操作系统知识模块、数据库知识模块和业务应用模块以及BMC控制台的部署;
通过性能采集模块及资源数据采集模块进行高性能服务器的性能和资源数据采集,通过系统管理功能模块进行系统运行状态信息的采集,并存储到本地历史数据库;
BMC自主智能学习模块对获取的性能和资源数据以及系统运行状态信息进行筛选,并将筛选后数据存放在本地历史数据库;
BMC自主智能学习模块对数据库知识模块、操作系统知识模块和业务应用知识模块的历史数据进行学习,分析预测故障的发展趋势和发生概率;
BMC自主智能学习模块根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略;
BMC控制台实时显示故障分析和预测结果信息,同时高性能服务器使用者根据故障预测进行操作的决策。
本发明的有益之处是:
本发明提供一种基于BMC的高性能服务器故障分析预测方法,相对于现有高性能服务器故障分析预测,本发明分别设计性能采集模块和资源数据采集模块、系统管理功能模块进行信息的分属采集,有利于BMC自主智能学习模块进行分析筛选和学习对故障的发展趋势进行预测,并可将不同数据信息放置在数据库知识模块、操作系统知识模块、业务应用知识模块、历史数据库中,便于信息的提取和有效分析,有效提高了故障分析能力和故障预测能力,同时通过BMC控制台进行综合调度和信息分析,实时显示故障的自动检测及告警。实现高性能服务器智能故障分析和预测的技术,实现高性能服务器的稳定运行和持续可靠提供业务,降低故障率,提高了服务器的可用性。
附图说明
图1是本发明系统的相互关系示意图;
图2是本发明方法流程示意图。
具体实施方式
本发明提供一种基于BMC的高性能服务器故障分析预测系统,包括BMC控制台、BMC自主智能学习模块、性能采集模块、资源数据采集模块、警告采集模块、系统管理功能模块、知识模块,
其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
同时提供与上述系统相对应的一种基于BMC的高性能服务器故障分析预测方法,利用所述的系统进行高性能服务器故障分析预测,其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
利用本发明方法和系统,对Intel Xeon E5 V4系列处理器,6U高度的平台部署BMC自主智能学习模块、性能采集模块和资源数据采集模块、系统管理功能模块和警告采集模块,同时,完成对操作系统知识模块、数据库知识模块和业务应用模块以及BMC控制台的部署;
通过性能采集模块及资源数据采集模块进行高性能服务器的性能和资源数据采集,通过系统管理功能模块进行系统运行状态信息的采集,并存储到本地历史数据库;
BMC自主智能学习模块对获取的性能和资源数据以及系统运行状态信息进行筛选,并将筛选后数据存放在本地历史数据库;
BMC自主智能学习模块对数据库知识模块、操作系统知识模块和业务应用知识模块的历史数据进行学习,分析预测故障的发展趋势和发生概率;
BMC自主智能学习模块根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略;
BMC控制台实时显示故障分析和预测结果信息,同时高性能服务器使用者根据故障预测进行操作的决策。
利用本发明为高性能服务器提供了一种高效维护管理的技术途径,实现高性能服务器智能故障分析和预测的技术,实现高性能服务器的稳定运行和持续可靠提供业务,降低故障率,提高了服务器的可用性。
Claims (5)
1.一种基于BMC的高性能服务器故障分析预测系统,其特征是
包括BMC控制台、BMC自主智能学习模块、性能采集模块、资源数据采集模块、警告采集模块、系统管理功能模块、知识模块,
其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
2.根据权利要求1所述的系统,其特征是所述知识模块包括数据库知识模块、操作系统知识模块和业务应用知识模块,数据库知识模块、操作系统知识模块和业务应用知识模块分别存储相应的数据信息。
3.一种基于BMC的高性能服务器故障分析预测方法,其特征是利用权利要求1或2所述的系统进行高性能服务器故障分析预测,其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。
4.根据权利要求1所述的方法,其特征是知识模块包括数据库知识模块、操作系统知识模块和业务应用知识模块,利用数据库知识模块、操作系统知识模块和业务应用知识模块分别存储相应的数据信息。
5.根据权利要求3所述的方法,其特征是具体步骤为:
部署BMC自主智能学习模块、性能采集模块和资源数据采集模块、系统管理功能模块和警告采集模块,同时,完成对操作系统知识模块、数据库知识模块和业务应用模块以及BMC控制台的部署;
通过性能采集模块及资源数据采集模块进行高性能服务器的性能和资源数据采集,通过系统管理功能模块进行系统运行状态信息的采集,并存储到本地历史数据库;
BMC自主智能学习模块对获取的性能和资源数据以及系统运行状态信息进行筛选,并将筛选后数据存放在本地历史数据库;
BMC自主智能学习模块对数据库知识模块、操作系统知识模块和业务应用知识模块的历史数据进行学习,分析预测故障的发展趋势和发生概率;
BMC自主智能学习模块根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略;
BMC控制台实时显示故障分析和预测结果信息,同时高性能服务器使用者根据故障预测进行操作的决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810955056.0A CN109254895A (zh) | 2018-08-21 | 2018-08-21 | 一种基于bmc的高性能服务器故障分析预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810955056.0A CN109254895A (zh) | 2018-08-21 | 2018-08-21 | 一种基于bmc的高性能服务器故障分析预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109254895A true CN109254895A (zh) | 2019-01-22 |
Family
ID=65048854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810955056.0A Pending CN109254895A (zh) | 2018-08-21 | 2018-08-21 | 一种基于bmc的高性能服务器故障分析预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109254895A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992477A (zh) * | 2019-03-27 | 2019-07-09 | 联想(北京)有限公司 | 用于电子设备的信息处理方法、系统以及电子设备 |
CN111737092A (zh) * | 2020-06-06 | 2020-10-02 | 苏州浪潮智能科技有限公司 | 一种基于无状态计算的服务器自动化运维系统及方法 |
CN112685245A (zh) * | 2020-12-11 | 2021-04-20 | 贵州电网有限责任公司 | 一种虚拟机能耗管控方法 |
CN112965891A (zh) * | 2021-03-10 | 2021-06-15 | 山东英信计算机技术有限公司 | 一种基于服务器测试风扇性能监控的测试方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662788A (zh) * | 2012-04-28 | 2012-09-12 | 浪潮电子信息产业股份有限公司 | 一种计算机系统故障诊断决策及处理方法 |
CN103200039A (zh) * | 2012-01-09 | 2013-07-10 | 阿里巴巴集团控股有限公司 | 数据监控方法及装置 |
CN103488575A (zh) * | 2013-08-12 | 2014-01-01 | 记忆科技(深圳)有限公司 | 动态调整固态硬盘预留空间的方法及其固态硬盘 |
CN105323111A (zh) * | 2015-11-17 | 2016-02-10 | 南京南瑞集团公司 | 一种运维自动化系统及方法 |
EP3079062A1 (en) * | 2015-04-09 | 2016-10-12 | Zentrum Mikroelektronik Dresden AG | Electronic system and method for estimating and predicting a failure of that electronic system |
CN106502871A (zh) * | 2016-09-28 | 2017-03-15 | 广州汇通国信信息科技有限公司 | 监管系统的告警阈值动态配置系统及方法 |
-
2018
- 2018-08-21 CN CN201810955056.0A patent/CN109254895A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103200039A (zh) * | 2012-01-09 | 2013-07-10 | 阿里巴巴集团控股有限公司 | 数据监控方法及装置 |
CN102662788A (zh) * | 2012-04-28 | 2012-09-12 | 浪潮电子信息产业股份有限公司 | 一种计算机系统故障诊断决策及处理方法 |
CN103488575A (zh) * | 2013-08-12 | 2014-01-01 | 记忆科技(深圳)有限公司 | 动态调整固态硬盘预留空间的方法及其固态硬盘 |
EP3079062A1 (en) * | 2015-04-09 | 2016-10-12 | Zentrum Mikroelektronik Dresden AG | Electronic system and method for estimating and predicting a failure of that electronic system |
CN106055418A (zh) * | 2015-04-09 | 2016-10-26 | 微电子中心德累斯顿有限公司 | 电子系统和用于评估并且预测该电子系统的失效的方法 |
CN105323111A (zh) * | 2015-11-17 | 2016-02-10 | 南京南瑞集团公司 | 一种运维自动化系统及方法 |
CN106502871A (zh) * | 2016-09-28 | 2017-03-15 | 广州汇通国信信息科技有限公司 | 监管系统的告警阈值动态配置系统及方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992477A (zh) * | 2019-03-27 | 2019-07-09 | 联想(北京)有限公司 | 用于电子设备的信息处理方法、系统以及电子设备 |
CN111737092A (zh) * | 2020-06-06 | 2020-10-02 | 苏州浪潮智能科技有限公司 | 一种基于无状态计算的服务器自动化运维系统及方法 |
CN112685245A (zh) * | 2020-12-11 | 2021-04-20 | 贵州电网有限责任公司 | 一种虚拟机能耗管控方法 |
CN112965891A (zh) * | 2021-03-10 | 2021-06-15 | 山东英信计算机技术有限公司 | 一种基于服务器测试风扇性能监控的测试方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109254895A (zh) | 一种基于bmc的高性能服务器故障分析预测方法 | |
US7667596B2 (en) | Method and system for scoring surveillance system footage | |
US20210027205A1 (en) | Machine learning for failure event identification & prediction | |
CN111770317B (zh) | 用于智慧社区的视频监控方法、装置、设备及介质 | |
Zhang et al. | A deep-intelligence framework for online video processing | |
CN111159093B (zh) | 异构智能计算系统 | |
Guo et al. | Identifying time-of-day breakpoints based on nonintrusive data collection platforms | |
Ma et al. | A survey of video-based crowd anomaly detection in dense scenes | |
US20220254162A1 (en) | Deep learning framework for congestion detection and prediction in human crowds | |
CN115114342B (zh) | 一种数字孪生多源数据异常监测方法及系统 | |
CN104580194A (zh) | 面向视频应用的虚拟化资源管理方法及装置 | |
Kwon et al. | Toward an online continual learning architecture for intrusion detection of video surveillance | |
CN111782900A (zh) | 异常业务检测方法、装置、电子设备及存储介质 | |
CN115329265A (zh) | 图码轨迹关联度确定方法、装置、设备及存储介质 | |
EP4097577A1 (en) | Systems and methods for resource analysis, optimization, or visualization | |
Sinqadu et al. | Performance evaluation of a traffic surveillance application using ifogsim | |
Pudasaini et al. | Edge-based video analytic for smart cities | |
CN107291597A (zh) | 一种基于多核异构处理器的运维多模态决策感知系统 | |
US20200074213A1 (en) | Gpb algorithm based operation and maintenance multi-modal decision system prototype | |
Xu et al. | Edge Video Analytics: A Survey on Applications, Systems and Enabling Techniques | |
Kumar | Multiparty Collaboration in Edge Computing Systems | |
Bhardwaj et al. | A Novel Architecture for the Smart Pedestrian Crossing in Cities Using IoT-Based Approach | |
US20230038260A1 (en) | Systems and methods for autonomous first response routing | |
US20240153275A1 (en) | Determining incorrect predictions by, and generating explanations for, machine learning models | |
CN112925741B (zh) | 异构计算方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190122 |
|
RJ01 | Rejection of invention patent application after publication |