CN108763002A - 基于机器学习预测cpu故障的方法及系统 - Google Patents

基于机器学习预测cpu故障的方法及系统 Download PDF

Info

Publication number
CN108763002A
CN108763002A CN201810516634.0A CN201810516634A CN108763002A CN 108763002 A CN108763002 A CN 108763002A CN 201810516634 A CN201810516634 A CN 201810516634A CN 108763002 A CN108763002 A CN 108763002A
Authority
CN
China
Prior art keywords
cpu
prediction model
server
machine learning
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810516634.0A
Other languages
English (en)
Inventor
左聪越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810516634.0A priority Critical patent/CN108763002A/zh
Publication of CN108763002A publication Critical patent/CN108763002A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了基于机器学习预测CPU故障的方法及系统,方法包括获取不同CPU的特征信息,形成训练数据集;对所述训练数据集,结合输入标签值,利用监督式学习算法进行训练建模,得到CPU故障的预测模型;利用所述预测模型,对CPU进行故障预测。本发明基于机器学习算法,建立服务器CPU故障的预测模型,利用该模型对CPU进行故障预测,提前获知CPU的健康状况,便于及时采取相关的应对措施,降低风险和危害。

Description

基于机器学习预测CPU故障的方法及系统
技术领域
本发明涉及计算机技术领域,具体地说是基于机器学习预测CPU故障的方法及系统。
背景技术
随着大数据时代的到来,作为计算平台核心的服务器,其可靠性、稳定性正接受着种种考验。CPU作为服务器的核心组成部分,承担着解释计算机指令以及处理计算机软件中的数据的重要作用,如果CPU发生故障,将导致服务器的可靠性会下降,甚至给用户带来损失。
现有技术中,缺乏对CPU故障预测的相关技术,只能在CPU实际出现故障时采取相应的应对措施。对重要服务器上的CPU通常根据往常的经验,根据CPU的工作时长,定期的进行维护或更换,成本较高。且在CPU发生意外故障时,往往对用户造成巨大损失。
发明内容
本发明实施例中提供了基于机器学习预测CPU故障的方法及系统,以解决现有技术中缺乏对CPU故障进行预测,使用成本高的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了基于机器学习预测CPU故障的方法,包括以下步骤:
获取不同CPU的特征信息,形成训练数据集;
对所述训练数据集,结合输入标签值,利用监督式学习算法进行训练建模,得到CPU故障的预测模型;
利用所述预测模型,对CPU进行故障预测。
结合第一方面,在第一方面第一种可能的实现方式中,所述获取不同CPU的特征信息,形成训练数据集的具体过程为:
在操作系统下运行信息采集工具,获取服务器上CPU的特征信息;
生成日志文件,将所述特征信息存储在日志文件中,作为训练数据集;
根据所述训练数据集,定义特征值。
结合第一方面,在第一方面第一种可能的实现方式中,信息采集工具支持远程采集和本地采集,远程采集时通过输入目标服务器的BMC IP,获取远程服务器的CPU特征信息。
结合第一方面,在第一方面第二种可能的实现方式中,对所述训练数据集,结合输入标签值,利用监督式学习算法进行训练建模,得到CPU故障的预测模型的具体过程为:
利用sklearn中的preproccessing库进行数据的预处理;
结合输入标签值,对预处理过的数据利用sklearn中的监督式学习算法创建模型。
结合第一方面,在第一方面第二种可能的实现方式中,创建预测模型后还包括步骤:利用sklearn中的metrics模块对模型进行评估,得到预测模型。
结合第一方面,在第一方面第二种可能的实现方式中,对数据进行的预处理包括对定量特征二值化和对定性特征独热编码。
结合第一方面,在第一方面第三种可能的实现方式中,利用所述预测模型,对CPU进行故障预测的具体过程为:
将所述预测模型部署到故障预测服务器上;
运行信息采集工具,获取待预测服务器的CPU特征信息,并上传至故障预测服务器;
根据所述预测模型,对待预测服务器的CPU健康状态进行评估,得到CPU的故障预测结果。
本发明第二方面提供了基于机器学习预测CPU故障的系统,所述系统包括
信息获取模块,用于获取不同CPU的特征信息,形成训练数据集;
数据建模模块,用于对所述训练数据集,结合输入标签值,利用监督式学习算法进行训练建模,得到CPU故障的预测模型;
故障预测模块,利用所述预测模型,对CPU进行故障预测。
结合第二方面,在第二方面第一种可能的实现方式中,所述数据建模模块包括
预处理单元,利用sklearn中的preproccessing库进行数据的预处理;模型创建单元,用于结合输入标签值,对预处理过的数据利用sklearn中的监督式学习算法创建模型。
结合第二方面,在第二方面第二种可能的实现方式中,所述故障预测模块包括:
模型部署单元,用于将所述预测模型部署到故障预测服务器上;
信息采集单元,用于运行信息采集工具,获取待预测服务器的CPU特征信息,并上传至故障预测服务器;
故障评估单元,根据所述预测模型,对待预测服务器的CPU健康状态进行评估,得到CPU的故障预测结果。
本发明第二方面所述的系统能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、基于机器学习算法,建立服务器CPU故障的预测模型,利用该模型对CPU进行故障预测,提前获知CPU的健康状况,便于及时采取相关的应对措施,降低风险和危害。
2、在利用算法建模时,引入输入标签值,将现有的CPU故障数据加入到预测模型中,节省计算时间,且获得的预测模型的准确性高,该模型在后续的使用中,不断将CPU的故障情况进行累计加入到预测模型中,不断提高评估的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法的流程示意图;
图2是本发明所述系统的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
机器学习是对能通过经验自动改进的计算机算法的研究。针对经验和一系列的任务和一定表现的衡量,如果随着经验的积累,针对定义好的任务可以提高表现,就说明机器具有学习能力。
sklearn即scikit-learn,是机器学习中一个常用的python第三方模块,封装了一些常用的机器学习方法。
如图1所示,本发明预测CPU故障的方法包括以下步骤:
S1,获取不同CPU的特征信息,形成训练数据集:
通过浪潮公司的信息采集工具——“InspurDiagLogCollect”工具采集不同厂商、不同型号的CPU特征信息,形成数据集。该信息采集工具分为Linux版和Windows版,可以运行在不同平台上,支持远程采集和就地采集。在Linux环境下获取服务器CPU信息的操作方法为:在Linux操作系统下执行sh run.sh运行工具“InspurDiagLogCollect”,生成一个包含CPU特征信息的日志文件。给日志文件中得到的数据集定义特征值,形成训练数据集。具体的特征值的定义如下表所示:
序号 特征值 描述
1 Model Name CPU类型
2 Max Speed 最大速度
3 Current Speed 当前速度
4 Voltage 电压
5 Temp 温度
6 MCG Status MCG寄存器
7 MCI Status MCI寄存器(I为整数)
8 BIOS Version Bios版本信息
9 Correct ERR 可修复故障数
10 CPU Utilization CPU利用率
远程采集时通过输入目标服务器的BMC IP,获取远程服务器的CPU特征信息。
S2,对所述训练数据集,结合输入标签值,利用监督式学习算法进行训练建模,得到CPU故障的预测模型:
利用sklearn中的preproccessing库来进行数据预处理,预处理包括对定量特征二值化和对定性特征独热编码。进行预处理的数据包括S1中获取到的训练数据集中的数据和输入标签值,输入标签值是指现有的CPU故障数据。
使用sklearn中的监督式学习RandomForestClassifier算法对预处理的数据进行训练,创建模型。
对创建模模型,使用sklearn中metrics模块对模型进行评估,得到CPU故障预测模型。
S3,利用所述预测模型,对CPU进行故障预测:
将预测模型部署到故障预测服务器上;通过浪潮公司的“InspurDiagLogCollect”工具采集被测服务器的CPU特征信息,上传到故障预测服务器;根据预测模型,对待预测服务器的CPU健康状态进行评估,得到CPU的故障预测结果,输出为“预测标签值”。预测结果通过“YES”或“NO”体现。
如图2所示,本发明预测CPU故障的系统包括信息获取模块1、数据建模模块2和故障预测模块3。信息获取模块1用于获取不同CPU的特征信息,形成训练数据集;数据建模模块2用于对所述训练数据集,结合输入标签值,利用监督式学习算法进行训练建模,得到CPU故障的预测模型;故障预测模块3利用所述预测模型,对CPU进行故障预测。
数据建模模块2包括预处理单元21和模型创建单元22;预处理单元21利用sklearn中的preproccessing库进行数据的预处理;模型创建单元22用于结合输入标签值,对预处理过的数据利用sklearn中的监督式学习算法创建模型。
故障预测模块3包括模型部署单元31、信息采集单元32和故障评估单元33;模型部署单元31用于将所述预测模型部署到故障预测服务器上;信息采集单元32用于运行信息采集工具,获取待预测服务器的CPU特征信息,并上传至故障预测服务器;故障评估单元33根据所述预测模型,对待预测服务器的CPU健康状态进行评估,得到CPU的故障预测结果。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (10)

1.基于机器学习预测CPU故障的方法,其特征是:包括以下步骤:
获取不同CPU的特征信息,形成训练数据集;
对所述训练数据集,结合输入标签值,利用监督式学习算法进行训练建模,得到CPU故障的预测模型;
利用所述预测模型,对CPU进行故障预测。
2.根据权利要求1所述的基于机器学习预测CPU故障的方法,其特征是:所述获取不同CPU的特征信息,形成训练数据集的具体过程为:
在操作系统下运行信息采集工具,获取服务器上CPU的特征信息;
生成日志文件,将所述特征信息存储在日志文件中,作为训练数据集;
根据所述训练数据集,定义特征值。
3.根据权利要求2所述的基于机器学习预测CPU故障的方法,其特征是:信息采集工具支持远程采集和本地采集,远程采集时通过输入目标服务器的BMCIP,获取远程服务器的CPU特征信息。
4.根据权利要求1所述的基于机器学习预测CPU故障的方法,其特征是:对所述训练数据集,结合输入标签值,利用监督式学习算法进行训练建模,得到CPU故障的预测模型的具体过程为:
利用sklearn中的preproccessing库进行数据的预处理;
结合输入标签值,对预处理过的数据利用sklearn中的监督式学习算法创建模型。
5.根据权利要求4所述的基于机器学习预测CPU故障的方法,其特征是:创建预测模型后还包括步骤:利用sklearn中的metrics模块对模型进行评估,得到预测模型。
6.根据权利要求4或5所述的基于机器学习预测CPU故障的方法,其特征是:对数据进行的预处理包括对定量特征二值化和对定性特征独热编码。
7.根据权利要求1所述的基于机器学习预测CPU故障的方法,其特征是:利用所述预测模型,对CPU进行故障预测的具体过程为:
将所述预测模型部署到故障预测服务器上;
运行信息采集工具,获取待预测服务器的CPU特征信息,并上传至故障预测服务器;
根据所述预测模型,对待预测服务器的CPU健康状态进行评估,得到CPU的故障预测结果。
8.基于机器学习预测CPU故障的系统,其特征是:所述系统包括
信息获取模块,用于获取不同CPU的特征信息,形成训练数据集;
数据建模模块,用于对所述训练数据集,结合输入标签值,利用监督式学习算法进行训练建模,得到CPU故障的预测模型;
故障预测模块,利用所述预测模型,对CPU进行故障预测。
9.根据权利要求8所述的基于机器学习预测CPU故障的系统,其特征是:所述数据建模模块包括
预处理单元,利用sklearn中的preproccessing库进行数据的预处理;
模型创建单元,用于结合输入标签值,对预处理过的数据利用sklearn中的监督式学习算法创建模型。
10.根据权利要求8所述的基于机器学习预测CPU故障的系统,其特征是:所述故障预测模块包括:
模型部署单元,用于将所述预测模型部署到故障预测服务器上;
信息采集单元,用于运行信息采集工具,获取待预测服务器的CPU特征信息,并上传至故障预测服务器;
故障评估单元,根据所述预测模型,对待预测服务器的CPU健康状态进行评估,得到CPU的故障预测结果。
CN201810516634.0A 2018-05-25 2018-05-25 基于机器学习预测cpu故障的方法及系统 Pending CN108763002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810516634.0A CN108763002A (zh) 2018-05-25 2018-05-25 基于机器学习预测cpu故障的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810516634.0A CN108763002A (zh) 2018-05-25 2018-05-25 基于机器学习预测cpu故障的方法及系统

Publications (1)

Publication Number Publication Date
CN108763002A true CN108763002A (zh) 2018-11-06

Family

ID=64005828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810516634.0A Pending CN108763002A (zh) 2018-05-25 2018-05-25 基于机器学习预测cpu故障的方法及系统

Country Status (1)

Country Link
CN (1) CN108763002A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109738782A (zh) * 2018-12-07 2019-05-10 上海交通大学 基于测量数据机器学习的电路板故障检测方法和系统
CN111597395A (zh) * 2020-04-30 2020-08-28 徐州徐工矿业机械有限公司 一种矿用自卸车故障收集、存储和预测系统及方法
CN112215108A (zh) * 2020-09-29 2021-01-12 三一专用汽车有限责任公司 搅拌车故障预判方法、装置和计算机可读存储介质
CN113890821A (zh) * 2021-09-24 2022-01-04 绿盟科技集团股份有限公司 一种日志关联的方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116531A (zh) * 2013-01-25 2013-05-22 浪潮(北京)电子信息产业有限公司 存储系统故障预测方法和装置
CN105589795A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 基于预测模型的磁盘故障预测方法及装置
CN106407999A (zh) * 2016-08-25 2017-02-15 北京物思创想科技有限公司 结合规则来进行机器学习的方法及系统
CN106991502A (zh) * 2017-04-27 2017-07-28 深圳大数点科技有限公司 一种设备故障预测系统和方法
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法
CN107391341A (zh) * 2017-07-21 2017-11-24 郑州云海信息技术有限公司 一种故障预警方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116531A (zh) * 2013-01-25 2013-05-22 浪潮(北京)电子信息产业有限公司 存储系统故障预测方法和装置
CN105589795A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 基于预测模型的磁盘故障预测方法及装置
CN106407999A (zh) * 2016-08-25 2017-02-15 北京物思创想科技有限公司 结合规则来进行机器学习的方法及系统
CN106991502A (zh) * 2017-04-27 2017-07-28 深圳大数点科技有限公司 一种设备故障预测系统和方法
CN107391341A (zh) * 2017-07-21 2017-11-24 郑州云海信息技术有限公司 一种故障预警方法及装置
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109738782A (zh) * 2018-12-07 2019-05-10 上海交通大学 基于测量数据机器学习的电路板故障检测方法和系统
CN109738782B (zh) * 2018-12-07 2020-11-06 上海交通大学 基于测量数据机器学习的电路板故障检测方法和系统
CN111597395A (zh) * 2020-04-30 2020-08-28 徐州徐工矿业机械有限公司 一种矿用自卸车故障收集、存储和预测系统及方法
CN111597395B (zh) * 2020-04-30 2024-05-03 徐州徐工矿业机械有限公司 一种矿用自卸车故障收集、存储和预测系统及方法
CN112215108A (zh) * 2020-09-29 2021-01-12 三一专用汽车有限责任公司 搅拌车故障预判方法、装置和计算机可读存储介质
CN112215108B (zh) * 2020-09-29 2021-11-12 三一专用汽车有限责任公司 搅拌车故障预判方法、装置和计算机可读存储介质
CN113890821A (zh) * 2021-09-24 2022-01-04 绿盟科技集团股份有限公司 一种日志关联的方法、装置及电子设备
CN113890821B (zh) * 2021-09-24 2023-11-17 绿盟科技集团股份有限公司 一种日志关联的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN108763002A (zh) 基于机器学习预测cpu故障的方法及系统
US20150347923A1 (en) Error classification in a computing system
CN109710505A (zh) 一种磁盘故障预测方法、装置、终端及存储介质
US20230132116A1 (en) Prediction of impact to data center based on individual device issue
CN111585799A (zh) 网络故障预测模型建立方法及装置
CN115225536B (zh) 一种基于无监督学习的虚拟机异常检测方法及系统
US11711275B2 (en) Impact predictions based on incident-related data
Trivedi et al. Software fault mitigation and availability assurance techniques
Duenas et al. Applying event stream processing to network online failure prediction
CN112817785A (zh) 一种微服务系统的异常检测方法及装置
US20230133541A1 (en) Alert correlating using sequence model with topology reinforcement systems and methods
CN113723956A (zh) 异常监控方法、装置、设备及存储介质
JP2011175504A (ja) イベント予測システムおよびイベント予測方法、ならびにコンピュータ・プログラム
Zhang et al. Putracead: Trace anomaly detection with partial labels based on GNN and Pu Learning
US11410049B2 (en) Cognitive methods and systems for responding to computing system incidents
US11501155B2 (en) Learning machine behavior related to install base information and determining event sequences based thereon
Albahar et al. SchedTune: A heterogeneity-aware GPU scheduler for deep learning
CN113986643A (zh) 分析日志文件的方法、电子设备和计算机程序产品
Alonso et al. Software rejuvenation: Do it & telco industries use it?
EP3937017A1 (en) Maze-driven self-diagnostics using reinforcement learning
Milanovic et al. Modeling business process availability
CN117827784A (zh) 噪音日志的过滤方法、系统
US20230376372A1 (en) Multi-modality root cause localization for cloud computing systems
US11663544B2 (en) System and methods for risk assessment in a multi-tenant cloud environment
CN117170724A (zh) 用于检测业务异常的ai模型自动化更新方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication