CN109344017A - 一种基于机器学习预测内存故障的方法,设备及可读存储介质 - Google Patents

一种基于机器学习预测内存故障的方法,设备及可读存储介质 Download PDF

Info

Publication number
CN109344017A
CN109344017A CN201811037681.3A CN201811037681A CN109344017A CN 109344017 A CN109344017 A CN 109344017A CN 201811037681 A CN201811037681 A CN 201811037681A CN 109344017 A CN109344017 A CN 109344017A
Authority
CN
China
Prior art keywords
memory
machine learning
failure
information
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811037681.3A
Other languages
English (en)
Inventor
左聪越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Langchao Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Langchao Electronic Information Industry Co Ltd filed Critical Langchao Electronic Information Industry Co Ltd
Priority to CN201811037681.3A priority Critical patent/CN109344017A/zh
Publication of CN109344017A publication Critical patent/CN109344017A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于机器学习预测内存故障的方法,设备及可读存储介质,采集不同厂商、不同型号内存相关数据集;使用随机森林算法对数据集进行训练建模;用生成的训练模型,对内存进行故障预测。将机器学习与内存测试进行融合来实现对内存测试,进而能够提前预测内存故障,降低服务器风险。

Description

一种基于机器学习预测内存故障的方法,设备及可读存储 介质
技术领域
本发明涉及内存故障测试领域,尤其涉及一种基于机器学习预测内存故 障的方法,设备及可读存储介质。
背景技术
随着大数据时代的到来,作为计算平台核心的服务器,其可靠性、稳定 性正接受着种种考验。内存作为服务器的核心组成部分,承担着存放当前正 在使用的,或随时要的程序和数据的重要作用,如果内存发生故障,会导致 程序不能正常运行甚至宕机,这将使服务器的可靠性会下降,甚至给用户带 来损失。
机器学习是对能通过经验自动改进的计算机算法的研究。针对经验E和 一系列的任务T和一定表现的衡量P,如果随着经验E的积累,针对定义好 的任务T可以提高表现P,就说明机器具有学习能力。
如何将机器学习与内存测试进行融合来实现对内存测试,进而能够提前 预测内存故障,降低服务器风险是当前丞待解决的技术问题。
发明内容
为了克服上述现有技术中的不足,本发明提供一种基于机器学习预测内 存故障的方法,方法包括:
S1:采集不同厂商、不同型号内存相关数据集;
S2:使用随机森林算法对数据集进行训练建模;
S3:用生成的训练模型,对内存进行故障预测。
优选地,步骤S1还包括:
S11,通过InspurDiagLogCollect模块采集不同厂商、不同型号的内存相 关信息,形成训练数据集;
S12,根据得到的数据集定义内存特征值。
优选地,步骤S2还包括:
S21,数据预处理,使用sklearn中的preproccessing库来进行数据预处理;
S22,创建预测模型,使用sklearn中的监督式学习RandomForestClassifier 算法创建模型;
S23:模型评估,使用sklearn中metrics模块对模型进行评估。
优选地,步骤S3还包括:
S31,将故障预测软件部署到服务器;
S32,通过InspurDiagLogCollect模块采集被测服务器内存信息,上传到 故障预测服务器;
S33,故障预测软件通过步骤S22生成的预测模型对被测服务器内存健康 状态进行评估。
优选地,步骤S11还包括:
在操作系统下执行sh run.sh运行InspurDiagLogCollect模块,InspurDiagLogCollect模块自动收集服务器上CPU信息、DISK信息、MEM信 息;
执行完成后会生成一个包含CPU信息、DISK信息、MEM信息的日志文 件压缩包;
在日志文件压缩包中,收集内存信息,形成内存信息数据集。
优选地,内存信息数据集的特征值包括:最低电压,最高电压,配置电 压,内存类型,内存运行速度,内存厂商,Bios版本信息以及内存命中率。
一种基于机器学习预测内存故障方法的设备,包括:
存储器,用于存储计算机程序及基于机器学习预测内存故障方法;
处理器,用于执行所述计算机程序及基于机器学习预测内存故障方法, 以实现基于机器学习预测内存故障方法的步骤。
一种具有基于机器学习预测内存故障方法的计算机可读存储介质,所述 计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以 实现基于机器学习预测内存故障方法的步骤。
从以上技术方案可以看出,本发明具有以下优点:
本发明将机器学习与内存测试进行融合来实现对内存测试,进而能够提 前预测内存故障,降低服务器风险,通过采集不同厂商、不同型号内存相关 数据集,形成训练数据集;使用随机森林算法对数据集进行训练建模,生成 内存故障的预测模型;利用生成的模型,可以对内存故障进行提前预测,有 效降低风险及危害。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附 图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
图1为基于机器学习预测内存故障的方法流程图;
图2为基于机器学习预测内存故障的方法实施例流程图;
图3为基于机器学习预测内存故障的方法实施例流程图;
图4为基于机器学习预测内存故障的方法测试界面示意图。
具体实施方式
本发明提供一种基于机器学习预测内存故障的方法,如图1所示,方法 包括:
S1:采集不同厂商、不同型号内存相关数据集;
S2:使用随机森林算法对数据集进行训练建模;
S3:用生成的训练模型,对内存进行故障预测。
sklearn即scikit-learn,是机器学习中一个常用的python第三方模块,封 装了一些常用的机器学习方法。支持包括分类、回归、降维和聚类四大机器 学习算法。包含了特征提取、数据处理和模型评估三大模块。
基于机器学习预测内存故障的方法,用于内存故障的提前预测,降低风 险和危害。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将 运用具体的实施例及附图,对本发明保护的技术方案进行清楚、完整地描述, 显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。 基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下 所获得的所有其它实施例,都属于本专利保护的范围。
本发明提供的实施例中,如图2所示,
S11,通过InspurDiagLogCollect模块采集不同厂商、不同型号的内存相 关信息,形成训练数据集;
S12,根据得到的数据集定义内存特征值。
S13,数据预处理,使用sklearn中的preproccessing库来进行数据预处理;
S14,创建预测模型,使用sklearn中的监督式学习RandomForestClassifier 算法创建模型;
S15:模型评估,使用sklearn中metrics模块对模型进行评估。
S16,将故障预测软件部署到服务器;
S17,通过InspurDiagLogCollect模块采集被测服务器内存信息,上传到 故障预测服务器;
S18,故障预测软件通过步骤S22生成的预测模型对被测服务器内存健康 状态进行评估。
其中在步骤S11中,在操作系统下执行sh run.sh运行InspurDiagLogCollect 模块,InspurDiagLogCollect模块自动收集服务器上CPU信息、DISK信息、 MEM信息;操作系统可以为Linux系统和/或Windows系统。
执行完成后会生成一个包含CPU信息、DISK信息、MEM信息的日志文 件压缩包;
在日志文件压缩包中,收集内存信息,形成内存信息数据集。内存信息 数据集的特征值包括:最低电压,最高电压,配置电压,内存类型,内存运 行速度,内存厂商,Bios版本信息以及内存命中率。
为了充分说明本发明提供的技术方案下面以一个具体的实施例进一步说 明。如图3和图4所示:
S1:采集不同厂商、不同型号内存相关数据集,具体实现步骤为:
S11:通过InspurDiagLogCollect模块采集不同厂商、不同型号的内存相 关信息,形成数据集;
InspurDiagLogCollect模块使用方法包括:
在Linux操作系统下执行sh run.sh运行InspurDiagLogCollect模块,该InspurDiagLogCollect模块自动收集该服务器上CPU、DISK、MEM等信息。
执行完成后会生成一个包含CPU、DISK、MEM等信息的日志文件压缩 包,如SA5212H2_895507_10.166.15.147_20180521_170601.tar.gz
以下为InspurDiagLogCollect模块执行过程:
注:InspurDiagLogCollect模块分为Linux版和Windows版,可以运行在 不同平台上,支持BMC远程采集和本地OS采集。仅举例了在Linux环境 下本地OS采集,收集该服务器内存信息的操作方法。
S12:根据步骤S11得到的数据集定义特征值,如下表:
序号 特征值 描述
1 Mix Voltage 最低电压
2 Max Voltage 最高电压
3 Configured Voltage 配置电压
4 Type 类型
5 Speed 速度
6 Manufacture 厂商
7 BIOS Version Bios版本信息
8 Hit rate 内存命中率
S2:使用监督式学习RandomForestClassifier算法对数据集进行训练建模, 具体实现步骤为:
S21:数据预处理,使用sklearn中的preproccessing库来进行数据预处理, 如下:
对定量特征二值化,实现如下:
self.model_pre=LabelBinarizer()
self.bios_pre=LabelBinarizer()
对定性特征独热编码,实现如下:
self.mcg_pre=OneHotEncoder()
S22:创建预测模型,使用sklearn中的监督式学习RandomForestClassifier 算法创建模型,如下:
self.cls=RandomForestClassifier()
S23:模型评估,使用sklearn中metrics模块对模型进行评估,如下:
metrics.precision_score(result,y)
S3:用生成的模型,对内存进行故障预测,具体实现步骤为:
S31:将故障预测软件部署到服务器;
S32:通过InspurDiagLogCollect模块采集被测服务器内存信息,上传到故 障预测服务器:;
S33:故障预测软件通过步骤:S22生成的预测模型对被测服务器内存健康 状态进行评估。
当预测结果字段为“yes”时,代表该内存可能存在故障,即非健康状态。
本发明还提供一种基于机器学习预测内存故障方法的设备,包括:存储 器,用于存储计算机程序及基于机器学习预测内存故障方法;处理器用于执 行所述计算机程序及基于机器学习预测内存故障方法,以实现基于机器学习 预测内存故障方法的步骤。
可能以许多方式来实现本发明的方法以及装置。例如,可通过软件、硬 件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。 用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不 限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例 中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现 根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据 本发明的方法的程序的记录介质。
本发明还提供一种具有基于机器学习预测内存故障方法的计算机可读存 储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被 处理器执行以实现基于机器学习预测内存故障方法的步骤。
在一些实施例中,所述设备中的一个或多个设备的部分或所有功能或处 理由计算机程序实现或支持,计算机程序由计算机可读程序代码形成并且被 包括在计算机可读介质中。短语“计算机可读程序代码”包括任何类型的计算机 代码,包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够 被计算机访问的任何类型的介质,诸如只读存储器(ROM)、随机存取存储器 (RAM)、硬盘驱动器、光盘(CD)、数字视频盘(DVD)、或任何其他类型的存储 器。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于机器学习预测内存故障的方法,其特征在于,方法包括:
S1:采集不同厂商、不同型号内存相关数据集;
S2:使用随机森林算法对数据集进行训练建模;
S3:用生成的训练模型,对内存进行故障预测。
2.根据权利要求1所述的基于机器学习预测内存故障的方法,其特征在于,步骤S1还包括:
S11,通过InspurDiagLogCollect模块采集不同厂商、不同型号的内存相关信息,形成训练数据集;
S12,根据得到的数据集定义内存特征值。
3.根据权利要求1所述的基于机器学习预测内存故障的方法,其特征在于,步骤S2还包括:
S21,数据预处理,使用sklearn中的preproccessing库来进行数据预处理;
S22,创建预测模型,使用sklearn中的监督式学习RandomForestClassifier算法创建模型;
S23:模型评估,使用sklearn中metrics模块对模型进行评估。
4.根据权利要求2所述的基于机器学习预测内存故障的方法,其特征在于,步骤S3还包括:
S31,将故障预测软件部署到服务器;
S32,通过InspurDiagLogCollect模块采集被测服务器内存信息,上传到故障预测服务器;
S33,故障预测软件通过步骤S22生成的预测模型对被测服务器内存健康状态进行评估。
5.根据权利要求2所述的基于机器学习预测内存故障的方法,其特征在于,步骤S11还包括:
在操作系统下执行sh run.sh运行InspurDiagLogCollect模块,InspurDiagLogCollect模块自动收集服务器上CPU信息、DISK信息、MEM信息;
执行完成后会生成一个包含CPU信息、DISK信息、MEM信息的日志文件压缩包;
在日志文件压缩包中,收集内存信息,形成内存信息数据集。
6.根据权利要求5所述的基于机器学习预测内存故障的方法,其特征在于,
内存信息数据集的特征值包括:最低电压,最高电压,配置电压,内存类型,内存运行速度,内存厂商,Bios版本信息以及内存命中率。
7.一种基于机器学习预测内存故障方法的设备,其特征在于,包括:
存储器,用于存储计算机程序及基于机器学习预测内存故障方法;
处理器,用于执行所述计算机程序及基于机器学习预测内存故障方法,以实现如权利要求1至6任意一项所述基于机器学习预测内存故障方法的步骤。
8.一种具有基于机器学习预测内存故障方法的计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至6任意一项所述基于机器学习预测内存故障方法的步骤。
CN201811037681.3A 2018-09-06 2018-09-06 一种基于机器学习预测内存故障的方法,设备及可读存储介质 Pending CN109344017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811037681.3A CN109344017A (zh) 2018-09-06 2018-09-06 一种基于机器学习预测内存故障的方法,设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811037681.3A CN109344017A (zh) 2018-09-06 2018-09-06 一种基于机器学习预测内存故障的方法,设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN109344017A true CN109344017A (zh) 2019-02-15

Family

ID=65292408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811037681.3A Pending CN109344017A (zh) 2018-09-06 2018-09-06 一种基于机器学习预测内存故障的方法,设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN109344017A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196979A (zh) * 2019-06-05 2019-09-03 深圳市思迪信息技术股份有限公司 基于分布式系统的意图识别方法及装置
CN110598802A (zh) * 2019-09-26 2019-12-20 腾讯科技(深圳)有限公司 一种内存检测模型训练的方法、内存检测的方法及装置
CN112488142A (zh) * 2019-09-12 2021-03-12 中移(苏州)软件技术有限公司 一种雷达故障的预测方法、装置及存储介质
US11093229B2 (en) 2020-01-22 2021-08-17 International Business Machines Corporation Deployment scheduling using failure rate prediction
CN115543665A (zh) * 2022-09-23 2022-12-30 超聚变数字技术有限公司 一种内存可靠性评估方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017062867A1 (en) * 2015-10-09 2017-04-13 Helmy Eltoukhy Population based treatment recommender using cell free dna
CN107229976A (zh) * 2017-06-08 2017-10-03 郑州云海信息技术有限公司 一种基于spark的分布式机器学习系统
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法
CN108182115A (zh) * 2017-12-28 2018-06-19 福州大学 一种云环境下的虚拟机负载均衡方法
CN108491305A (zh) * 2018-03-09 2018-09-04 网宿科技股份有限公司 一种服务器故障的检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017062867A1 (en) * 2015-10-09 2017-04-13 Helmy Eltoukhy Population based treatment recommender using cell free dna
CN107229976A (zh) * 2017-06-08 2017-10-03 郑州云海信息技术有限公司 一种基于spark的分布式机器学习系统
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法
CN108182115A (zh) * 2017-12-28 2018-06-19 福州大学 一种云环境下的虚拟机负载均衡方法
CN108491305A (zh) * 2018-03-09 2018-09-04 网宿科技股份有限公司 一种服务器故障的检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
1OR0: "手把手教你使用sklearn快速入门机器学习", 《HTTPS://MP.WEIXIN.QQ.COM/S/O3MDNKONNWMLZ-44GDJXVW》 *
IOANA GIURGIU 等: "Predicting DRAM reliability in the field with machine learning", 《MIDDLEWARE "17: PROCEEDINGS OF THE 18TH ACM/IFIP/USENIX MIDDLEWARE CONFERENCE》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196979A (zh) * 2019-06-05 2019-09-03 深圳市思迪信息技术股份有限公司 基于分布式系统的意图识别方法及装置
CN112488142A (zh) * 2019-09-12 2021-03-12 中移(苏州)软件技术有限公司 一种雷达故障的预测方法、装置及存储介质
CN110598802A (zh) * 2019-09-26 2019-12-20 腾讯科技(深圳)有限公司 一种内存检测模型训练的方法、内存检测的方法及装置
CN111078479A (zh) * 2019-09-26 2020-04-28 腾讯科技(深圳)有限公司 一种内存检测模型训练的方法、内存检测的方法及装置
CN110598802B (zh) * 2019-09-26 2021-07-27 腾讯科技(深圳)有限公司 一种内存检测模型训练的方法、内存检测的方法及装置
CN111078479B (zh) * 2019-09-26 2021-09-07 腾讯科技(深圳)有限公司 一种内存检测模型训练的方法、内存检测的方法及装置
US11093229B2 (en) 2020-01-22 2021-08-17 International Business Machines Corporation Deployment scheduling using failure rate prediction
CN115543665A (zh) * 2022-09-23 2022-12-30 超聚变数字技术有限公司 一种内存可靠性评估方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109344017A (zh) 一种基于机器学习预测内存故障的方法,设备及可读存储介质
US11263071B2 (en) Enabling symptom verification
US10452525B2 (en) Utilizing semantic clusters to predict software defects
US20190213115A1 (en) Utilizing artificial intelligence to test cloud applications
US10705795B2 (en) Duplicate and similar bug report detection and retrieval using neural networks
Salfner et al. A survey of online failure prediction methods
US11520649B2 (en) Storage mounting event failure prediction
US10909022B2 (en) Systems and methods for identifying and tracking application performance incidents
US11835987B2 (en) Methods and apparatus for finding long methods in code
US11327742B2 (en) Affinity recommendation in software lifecycle management
US10002216B2 (en) Systems and methods for dynamic regression test generation using coverage-based clustering
US10067983B2 (en) Analyzing tickets using discourse cues in communication logs
ES2923100T3 (es) Clasificación de partes de código de software
US10642722B2 (en) Regression testing of an application that uses big data as a source of data
US11561875B2 (en) Systems and methods for providing data recovery recommendations using A.I
US9195730B2 (en) Verifying correctness of a database system via extended access paths
US11010158B2 (en) Determining the availability of memory optimizations by analyzing a running binary
Mi et al. Automatic detecting performance bugs in cloud computing systems via learning latency specification model
US20140236564A1 (en) Coverage model and measurements for partial instrumentation
JP2019133470A (ja) 挙動判別方法、挙動判別装置及びプログラム
US10552760B2 (en) Training set creation for classifying features of a system under agile development
WO2022009499A1 (ja) テスト支援装置及びテスト支援方法
US20240143666A1 (en) Smart metric clustering
US20210311814A1 (en) Pattern recognition for proactive treatment of non-contiguous growing defects
JP5379749B2 (ja) 文書分類装置、文書分類方法、そのプログラムおよび記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215