CN116501705A - 基于ras的内存信息收集解析方法、系统、设备及介质 - Google Patents

基于ras的内存信息收集解析方法、系统、设备及介质 Download PDF

Info

Publication number
CN116501705A
CN116501705A CN202310395331.9A CN202310395331A CN116501705A CN 116501705 A CN116501705 A CN 116501705A CN 202310395331 A CN202310395331 A CN 202310395331A CN 116501705 A CN116501705 A CN 116501705A
Authority
CN
China
Prior art keywords
information
memory
fault
dual
memory module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310395331.9A
Other languages
English (en)
Inventor
张梦婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310395331.9A priority Critical patent/CN116501705A/zh
Publication of CN116501705A publication Critical patent/CN116501705A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明提供一种基于RAS的内存信息收集解析方法、系统、设备及介质,属于内存故障信息处理技术领域,包括如下步骤:BMC对RAS内存管理系统的内存信息进行自检,收集DIMM信息;BMC对保存的DIMM信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;BMC对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警。本发明通过收集解析RAS内存故障管理系统内存信息,对已出现故障内存检测并记录,提前预判内存故障风险,预防服务器宕机;精准识别到具体槽位故障,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。

Description

基于RAS的内存信息收集解析方法、系统、设备及介质
技术领域
本发明属于内存故障信息处理技术领域,具体涉及一种基于RAS的内存信息收集解析方法、系统、设备及介质。
背景技术
RAS,是Reliability Availability Serviceability的简称,可靠性、可用性和可维护性。
DIMM,是Dual Inline Memory Modules的简称,双列直插内存模块。
随着数据中心的发展,服务器的应用越来越广泛,服务器的可靠性、可用性、可维护性就越来越重要。由于服务器的程序是在内存中运行的,随着内存频率越来越高,内存颗粒的密度越来越大,内存容量也越来越大,导致内存出现问题的概率越来越多,而内存故障已成为数据中心出现故障次数最多的问题。
内存RAS系统是服务器内部的内存故障管理系统,可自动恢复部分内存故障,但当内存故障严重至无法恢复时,服务器会直接宕机,此时会需要通过带外管理系统来恢复或软件重启,尤其当出现内存硬件永久性故障,还需要更换新的硬件或者启用设备进行修复。而内存故障导致的服务器宕机会影响数据中心的稳定性,尤其当出现永久性故障需要更换内存时,等待时间更加长,无法保证数据安全,急需一种能够及时发现内存故障,在服务器宕机前进行故障预警的方式来保证数据中心的稳定性。
针对上述缺陷,提供一种基于RAS的内存信息收集解析方法、系统、设备及介质,是非常有必要的。
发明内容
针对上述数据中心的内存故障严重至服务器宕机时,会影响数据中心稳定性的缺陷,本发明提供一种基于RAS的内存信息收集解析方法、系统、设备及介质,以解决上述技术问题。
第一方面,本发明提供一种基于RAS的内存信息收集解析方法,包括如下步骤:
S1.基板管理控制器对RAS内存管理系统的内存信息进行自检,收集双列直插内存模块信息;
S2.基板管理控制器对保存的双列直插内存模块信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;
S3.基板管理控制器对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警。
进一步地,步骤S1具体步骤如下:
S11.基板管理控制器接收安全外壳协议登录指令,判断需要监测所有在位双列直插内存模块信息还是指定名称的双列直插内存模块信息;
当需要监测所有在位双列直插内存模块信息时,进入步骤S12;
当需要监测指定名称的双列直插内存模块信息时,进入步骤S13;
S12.基板管理控制器通过信息收集指令使用高速串行计算机扩展总线标准通道访问RAS内存故障管理系统,进行所有双列直插内存模块信息自检,并进行收集,进入步骤S14;
S13.基板管理控制器根据输入的双列直插内存模块名称通过信息收集指令,使用高速串行计算机扩展总线标准通道访问RAS内存故障管理系统进行指定双列直插内存模块信息自检,并进行收集,进入步骤S14;
S14.基板管理控制器将收集的双列直插内存模块信息进行保存,生成双列直插内存模块信息原始文件。
进一步地,步骤S2具体步骤如下:
S21.基板管理控制器通过信息解析指令对双列直插内存模块信息原始文件进行解析,判断内存是否存在故障;
若是,进入步骤S22;
若否,进入步骤S23;
S22.基板管理控制器将故障内存的双列直插内存模块信息保存到内存故障日志文件中;
S23.基板管理控制器将解析后的双列直插内存模块信息文件进行保存,生成双列直插内存模块信息解析文件。
进一步地,步骤S14中,基板管理控制器将双列直插内存模块信息原始文件按照设定的路径存储在数字安全卡处;
步骤S22中,基板管理控制器将内存故障日志文件按照设定的路径存在数字安全卡处;
步骤S23中,基板管理控制器将解析后的双列直插内存模块信息文件按照设定路径存储在数字安全卡处。
进一步地,还包括如下步骤:
定时对基板管理控制器的数字安全卡容量进行检测,判断数字安全卡可用容量是否小于设定阈值,并在数字安全卡可用容量小于设定阈值时,将数字安全卡上存储时间大于时间阈值的对应双列直插内存模块信息文件迁移到远程服务器进行存储。
进一步地,双列直插内存模块信息原始文件及双列直插内存模块信息解析文件中双列直插内存模块信息包括双列直插内存模块身份识别号、槽位、通道以及序列号;
内存故障文件中故障内存的双列直插内存模块信息包括双列直插内存模块故障槽位以及故障类型。
进一步地,步骤S3具体步骤如下:
S31.基板管理控制器按照预设周期对内存故障文件中所有故障内存的双列直插内存模块信息进行分析;
S32.基板管理控制器判断需要监测所有在位双列直插内存模块信息还是指定名称的双列直插内存模块信息;
当需要监测所有在位双列直插内存模块信息时,进入步骤S34;
当需要监测指定名称的双列直插内存模块信息时,进入步骤S33;
S33.基板管理控制器判断指定名称的双列直插内存模块是否发生故障,并在发生故障时,输出该双列直插内存模块的故障槽位以及故障通道,结束;
S34.基板管理控制器统计所有发生故障的双列直插内存模块数量及对应故障槽位和故障通道,并与历史服务器宕机故障发生时对应参数进行匹配,判断匹配指数是否超过预设阈值;
若是,进入服务器宕机故障预警;
若否,返回步骤S11。
进一步地,步骤S34具体步骤如下:
S341.基板管理控制器根据历史服务器宕机故障时的故障双列直插内存模块信息对服务器内发生故障双列直插内存模块数量比例进行设定,记为第一比例,对需要替换的故障双列直插内存模块内通道故障数量比例进行设定,记为第二比例;
S342.基板管理控制器根据双列直插内存模块槽位信息统计服务器中在位双列直插内存模块数量与故障双列直插内存模块数量,并判断故障双列直插内存模块数量与在位双列直插内存模块数量是否超过第一比例;
若是,进入步骤S345;
若否,进入步骤S343;
S343.基板管理控制器对存在故障双列直插内存模块逐个进行检测,判断存在故障通道数量占总通道数量比值是否超过第二比例;
若是,进入步骤S344;
若否,返回步骤S11;
S344.判定该故障双列直插内存模块需要替换,对该故障双列直插内存模块进行预警,结束;
S345.判定服务器存在宕机故障风险,并进行预警。
第二方面,本发明提供一种基于RAS的内存信息收集解析系统,包括:
双列直插内存模块信息收集模块,用于对RAS内存管理系统的内存信息进行自检,收集双列直插内存模块信息;
双列直插内存模块信息解析模块,用于对保存的双列直插内存模块信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;
故障预判模块,用于对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警。双列直插内存模块信息收集模块、双列直插内存模块信息解析模块以及故障预判模块均设置在基板管理控制器。
进一步地,双列直插内存模块信息收集模块包括:
基板管理控制器登录单元,用于接收安全外壳协议登录指令,判断需要监测所有在位双列直插内存模块信息还是指定名称的双列直插内存模块信息;
第一双列直插内存模块信息收集单元,用于在需要监测所有在位双列直插内存模块信息时,通过信息收集指令使用高速串行计算机扩展总线标准通道访问RAS内存故障管理系统,进行所有双列直插内存模块信息自检,并进行收集;
第二双列直插内存模块信息收集单元,用于根据输入的双列直插内存模块名称通过信息收集指令,使用高速串行计算机扩展总线标准通道访问RAS内存故障管理系统进行指定双列直插内存模块信息自检,并进行收集;
双列直插内存模块原始文件生成单元,用于将收集的双列直插内存模块信息进行保存,生成双列直插内存模块信息原始文件。
进一步地,双列直插内存模块信息解析模块包括:
双列直插内存模块信息解析及故障判断单元,用于通过信息解析指令对双列直插内存模块信息原始文件进行解析,判断内存是否存在故障;
内存故障保存单元,用于当内存存在故障时,将故障内存的双列直插内存模块信息保存到内存故障日志文件中;
双列直插内存模块解析文件生成单元,用于将解析后的双列直插内存模块信息文件进行保存,生成双列直插内存模块信息解析文件。
进一步地,双列直插内存模块原始文件生成单元将双列直插内存模块信息原始文件按照设定的路径存储在数字安全卡处;
内存故障保存单元将内存故障日志文件按照设定的路径存在数字安全卡处;
双列直插内存模块解析文件生成单元将解析后的双列直插内存模块信息文件按照设定路径存储在数字安全卡处。
进一步地,还包括数字安全卡容量判断及双列直插内存模块信息备份模块;
数字安全卡容量判断及双列直插内存模块信息备份模块,用于定时对基板管理控制器的数字安全卡容量进行检测,判断数字安全卡可用容量是否小于设定阈值,并在数字安全卡可用容量小于设定阈值时,将数字安全卡上存储时间大于时间阈值的对应双列直插内存模块信息文件迁移到远程服务器进行存储。
进一步地,故障预判模块包括:
内存故障分析单元,用于按照预设周期对内存故障文件中所有故障内存的双列直插内存模块信息进行分析;
双列直插内存模块信息监测类型判断单元,用于判断需要监测所有在位双列直插内存模块信息还是指定名称的双列直插内存模块信息;
指定双列直插内存模块故障输出单元,用于需要监测指定名称的双列直插内存模块信息时,判断指定名称的双列直插内存模块是否发生故障,并在发生故障时,输出该双列直插内存模块的故障槽位以及故障通道;
服务器宕机故障预判单元,用于需要监测所有在位双列直插内存模块信息时,统计所有发生故障的双列直插内存模块数量及对应故障槽位和故障通道,并与历史服务器宕机故障发生时对应参数进行匹配,判断匹配指数是否超过预设阈值;
服务器故障预警单元,用于匹配指数超过设定阈值时,进入服务器宕机故障预警。
第三方面,本发明提供一种设备,
包括处理器和存储器;
其中,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得设备执行上述第一方面所述的方法。
第四方面,本发明提供了一种存储介质,
所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面任一项所述的方法。
本发明的有益效果在于:
本发明提供的基于RAS的内存信息收集解析方法、系统、设备及介质,通过收集和解析RAS内存故障管理系统的内存信息,对已经出现故障的内存进行检测并记录,提前预判内存故障风险,预防服务器宕机;故障处理精准识别到具体槽位,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于RAS的内存信息收集解析方法实施例1流程示意图。
图2是本发明的基于RAS的内存信息收集解析方法实施例2流程示意图。
图3是本发明的BMC对服务器宕机故障预判流程示意图。
图4是本发明的基于RAS的内存信息收集解析系统示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
BMC,是Baseboard Manager Controller的简称,基板管理控制器。
ssh,是Secure Shell的简称,安全外壳协议,是一种用于计算机之间加密登录的网络协议。
PCIE,是peripheral component interconnect express的简称,一种高速串行计算机扩展总线标准。
SD卡,Secure Digital Card简称,是安全数字卡。
实施例1:
如图1所示,本发明提供一种基于RAS的内存信息收集解析方法,包括如下步骤:
S1.BMC对RAS内存管理系统的内存信息进行自检,收集DIMM信息;
S2.BMC对保存的DIMM信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;
S3.BMC对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警。
本发明提供的基于RAS的内存信息收集解析方法,通过收集和解析RAS内存故障管理系统的内存信息,对已经出现故障的内存进行检测并记录,提前预判内存故障风险,预防服务器宕机;故障处理精准识别到具体槽位,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。
实施例2:
如图2所示,本发明提供一种基于RAS的内存信息收集解析方法,包括如下步骤:
S1.BMC对RAS内存管理系统的内存信息进行自检,收集DIMM信息;步骤S1具体步骤如下:
S11.BMC接收ssh登录指令,判断需要监测所有在位DIMM信息还是指定名称的DIMM信息;
当需要监测所有在位DIMM信息时,进入步骤S12;
当需要监测指定名称的DIMM信息时,进入步骤S13;
S12.BMC通过信息收集指令使用PCIE通道访问RAS内存故障管理系统,进行所有DIMM信息自检,并进行收集,进入步骤S14;
S13.BMC根据输入的DIMM名称通过信息收集指令,使用PCIE通道访问RAS内存故障管理系统进行指定DIMM信息自检,并进行收集,进入步骤S14;
S14.BMC将收集的DIMM信息进行保存,生成DIMM信息原始文件;
S2.BMC对保存的DIMM信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;步骤S2具体步骤如下:
S21.BMC通过信息解析指令对DIMM信息原始文件进行解析,判断内存是否存在故障;
若是,进入步骤S22;
若否,进入步骤S23;
S22.BMC将故障内存的DIMM信息保存到内存故障日志文件中;
S23.BMC将解析后的DIMM信息文件进行保存,生成DIMM信息解析文件;
S3.BMC对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警;步骤S3具体步骤如下:
S31.BMC按照预设周期对内存故障文件中所有故障内存的DIMM信息进行分析;
S32.BMC判断需要监测所有在位DIMM信息还是指定名称的DIMM信息;
当需要监测所有在位DIMM信息时,进入步骤S34;
当需要监测指定名称的DIMM信息时,进入步骤S33;
S33.BMC判断指定名称的DIMM是否发生故障,并在发生故障时,输出该DIMM的故障槽位以及故障通道,结束;
S34.BMC统计所有发生故障的DIMM数量及对应故障槽位和故障通道,并与历史服务器宕机故障发生时对应参数进行匹配,判断匹配指数是否超过预设阈值;
若是,进入服务器宕机故障预警;
若否,返回步骤S11。
本发明提供的基于RAS的内存信息收集解析方法,通过收集和解析RAS内存故障管理系统的内存信息,对已经出现故障的内存进行检测并记录,提前预判内存故障风险,预防服务器宕机;故障处理精准识别到具体槽位,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。
实施例3:
如图2所示,本发明提供一种基于RAS的内存信息收集解析方法,包括如下步骤:
S1.BMC对RAS内存管理系统的内存信息进行自检,收集DIMM信息;步骤S1具体步骤如下:
S11.BMC接收ssh登录指令,判断需要监测所有在位DIMM信息还是指定名称的DIMM信息;
当需要监测所有在位DIMM信息时,进入步骤S12;
当需要监测指定名称的DIMM信息时,进入步骤S13;
S12.BMC通过信息收集指令使用PCIE通道访问RAS内存故障管理系统,进行所有DIMM信息自检,并进行收集,进入步骤S14;
S13.BMC根据输入的DIMM名称通过信息收集指令,使用PCIE通道访问RAS内存故障管理系统进行指定DIMM信息自检,并进行收集,进入步骤S14;
S14.BMC将收集的DIMM信息进行保存,生成DIMM信息原始文件;BMC将DIMM信息原始文件按照设定的路径存储在SD卡处;
RAS内存管理系统可以在系统发生错误进行故障诊断,故障定位,故障恢复,故障信息搜集以及故障上报,由于此系统的核心模块是运行于BIOS及HDM上的,不依赖于OS,并且处于一直运行的状态,因此可以全时段对服务器系统运行检测;通过信息收集指令进行PCIE通道访问RAS内存管理系统进行基础信息收集,将返回的内存寄存器信息保存在文件中,信息收集完成后,将收集到的信息保存在设定的日志路径下;
S2.BMC对保存的DIMM信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;步骤S2具体步骤如下:
S21.BMC通过信息解析指令对DIMM信息原始文件进行解析,判断内存是否存在故障;
若是,进入步骤S22;
若否,进入步骤S23;
S22.BMC将故障内存的DIMM信息保存到内存故障日志文件中;BMC将内存故障日志文件按照设定的路径存在SD卡处;
S23.BMC将解析后的DIMM信息文件进行保存,生成DIMM信息解析文件;BMC将解析后的DIMM信息文件按照设定路径存储在SD卡处;
DIMM信息原始文件及DIMM信息解析文件中DIMM信息包括DIMM身份识别号、槽位、通道以及序列号;
内存故障文件中故障内存的DIMM信息包括DIMM故障槽位以及故障类型;
定时对BMC的SD卡容量进行检测,判断SD卡可用容量是否小于设定阈值,并在SD卡可用容量小于设定阈值时,将SD卡上存储时间大于时间阈值的对应DIMM信息文件迁移到远程服务器进行存储;
S3.BMC对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警;步骤S3具体步骤如下:
S31.BMC按照预设周期对内存故障文件中所有故障内存的DIMM信息进行分析;
S32.BMC判断需要监测所有在位DIMM信息还是指定名称的DIMM信息;
当需要监测所有在位DIMM信息时,进入步骤S34;
当需要监测指定名称的DIMM信息时,进入步骤S33;
S33.BMC判断指定名称的DIMM是否发生故障,并在发生故障时,输出该DIMM的故障槽位以及故障通道,结束;
S34.BMC统计所有发生故障的DIMM数量及对应故障槽位和故障通道,并与历史服务器宕机故障发生时对应参数进行匹配,判断匹配指数是否超过预设阈值;
若是,进入服务器宕机故障预警;
若否,返回步骤S11;
如图3所示,步骤S34具体步骤如下:
S341.BMC根据历史服务器宕机故障时的故障DIMM信息对服务器内发生故障DIMM数量比例进行设定,记为第一比例,对需要替换的故障DIMM内通道故障数量比例进行设定,记为第二比例;
S342.BMC根据DIMM槽位信息统计服务器中在位DIMM数量与故障DIMM数量,并判断故障DIMM数量与在位DIMM数量是否超过第一比例;
若是,进入步骤S345;
若否,进入步骤S343;
S343.BMC对存在故障DIMM逐个进行检测,判断存在故障通道数量占总通道数量比值是否超过第二比例;
若是,进入步骤S344;
若否,返回步骤S11;
S344.判定该故障DIMM需要替换,对该故障DIMM进行预警,结束;
S345.判定服务器存在宕机故障风险,并进行预警。
本发明提供的基于RAS的内存信息收集解析方法,通过收集和解析RAS内存故障管理系统的内存信息,对已经出现故障的内存进行检测并记录,提前预判内存故障风险,预防服务器宕机;故障处理精准识别到具体槽位,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。
实施例4:
如图4所示,本发明提供一种基于RAS的内存信息收集解析系统,包括:
DIMM信息收集模块,用于对RAS内存管理系统的内存信息进行自检,收集DIMM信息;
DIMM信息解析模块,对保存的DIMM信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;
故障预判模块,对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警。
本发明提供的基于RAS的内存信息收集解析系统,通过收集和解析RAS内存故障管理系统的内存信息,对已经出现故障的内存进行检测并记录,提前预判内存故障风险,预防服务器宕机;故障处理精准识别到具体槽位,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。
实施例5:
如图4所示,本发明提供一种基于RAS的内存信息收集解析系统,包括:
DIMM信息收集模块,用于对RAS内存管理系统的内存信息进行自检,收集DIMM信息;DIMM信息收集模块包括:
BMC登录单元,用于接收ssh登录指令,判断需要监测所有在位DIMM信息还是指定名称的DIMM信息;
第一DIMM信息收集单元,用于在需要监测所有在位DIMM信息时,通过信息收集指令使用PCIE通道访问RAS内存故障管理系统,进行所有DIMM信息自检,并进行收集;
第二DIMM信息收集单元,用于根据输入的DIMM名称通过信息收集指令,使用PCIE通道访问RAS内存故障管理系统进行指定DIMM信息自检,并进行收集;
DIMM原始文件生成单元,用于将收集的DIMM信息进行保存,生成DIMM信息原始文件;
DIMM信息解析模块,对保存的DIMM信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;DIMM信息解析模块包括:
DIMM信息解析及故障判断单元,用于通过信息解析指令对DIMM信息原始文件进行解析,判断内存是否存在故障;
内存故障保存单元,用于当内存存在故障时,将故障内存的DIMM信息保存到内存故障日志文件中;
DIMM解析文件生成单元,用于将解析后的DIMM信息文件进行保存,生成DIMM信息解析文件;
故障预判模块,对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警;故障预判模块包括:
内存故障分析单元,用于按照预设周期对内存故障文件中所有故障内存的DIMM信息进行分析;
DIMM信息监测类型判断单元,用于判断需要监测所有在位DIMM信息还是指定名称的DIMM信息;
指定DIMM故障输出单元,用于需要监测指定名称的DIMM信息时,判断指定名称的DIMM是否发生故障,并在发生故障时,输出该DIMM的故障槽位以及故障通道;
服务器宕机故障预判单元,用于需要监测所有在位DIMM信息时,统计所有发生故障的DIMM数量及对应故障槽位和故障通道,并与历史服务器宕机故障发生时对应参数进行匹配,判断匹配指数是否超过预设阈值;
服务器故障预警单元,用于匹配指数超过设定阈值时,进入服务器宕机故障预警。
本发明提供的基于RAS的内存信息收集解析系统,通过收集和解析RAS内存故障管理系统的内存信息,对已经出现故障的内存进行检测并记录,提前预判内存故障风险,预防服务器宕机;故障处理精准识别到具体槽位,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。
实施例6:
如图4所示,本发明提供一种基于RAS的内存信息收集解析系统,包括:
DIMM信息收集模块,用于对RAS内存管理系统的内存信息进行自检,收集DIMM信息;DIMM信息收集模块包括:
BMC登录单元,用于接收ssh登录指令,判断需要监测所有在位DIMM信息还是指定名称的DIMM信息;
第一DIMM信息收集单元,用于在需要监测所有在位DIMM信息时,通过信息收集指令使用PCIE通道访问RAS内存故障管理系统,进行所有DIMM信息自检,并进行收集;
第二DIMM信息收集单元,用于根据输入的DIMM名称通过信息收集指令,使用PCIE通道访问RAS内存故障管理系统进行指定DIMM信息自检,并进行收集;
DIMM原始文件生成单元,用于将收集的DIMM信息进行保存,生成DIMM信息原始文件;
DIMM信息解析模块,用于对保存的DIMM信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;DIMM信息解析模块包括:
DIMM信息解析及故障判断单元,用于通过信息解析指令对DIMM信息原始文件进行解析,判断内存是否存在故障;
内存故障保存单元,用于当内存存在故障时,将故障内存的DIMM信息保存到内存故障日志文件中;
DIMM解析文件生成单元,用于将解析后的DIMM信息文件进行保存,生成DIMM信息解析文件;
故障预判模块,用于对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警;
内存故障分析单元,用于按照预设周期对内存故障文件中所有故障内存的DIMM信息进行分析;
DIMM信息监测类型判断单元,用于判断需要监测所有在位DIMM信息还是指定名称的DIMM信息;
指定DIMM故障输出单元,用于需要监测指定名称的DIMM信息时,判断指定名称的DIMM是否发生故障,并在发生故障时,输出该DIMM的故障槽位以及故障通道;
服务器宕机故障预判单元,用于需要监测所有在位DIMM信息时,统计所有发生故障的DIMM数量及对应故障槽位和故障通道,并与历史服务器宕机故障发生时对应参数进行匹配,判断匹配指数是否超过预设阈值;
服务器故障预警单元,用于匹配指数超过设定阈值时,进入服务器宕机故障预警;
SD卡容量判断及DIMM信息备份模块,用于定时对BMC的SD卡容量进行检测,判断SD卡可用容量是否小于设定阈值,并在SD卡可用容量小于设定阈值时,将SD卡上存储时间大于时间阈值的对应DIMM信息文件迁移到远程服务器进行存储。
本发明提供的基于RAS的内存信息收集解析系统,通过收集和解析RAS内存故障管理系统的内存信息,对已经出现故障的内存进行检测并记录,提前预判内存故障风险,预防服务器宕机;故障处理精准识别到具体槽位,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。
实施例7:
本发明提供一种设备,包括处理器和存储器;
其中,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得设备执行上述实施例1、实施例2或实施例3所述的方法。
本发明提供的基于RAS的内存信息收集解析设备,通过收集和解析RAS内存故障管理系统的内存信息,对已经出现故障的内存进行检测并记录,提前预判内存故障风险,预防服务器宕机;故障处理精准识别到具体槽位,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。
实施例8:
本发明提供一种存储介质,
所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例1、实施例2或实施例3所述的方法。
本发明提供的基于RAS的内存信息收集解析存储介质,通过收集和解析RAS内存故障管理系统的内存信息,对已经出现故障的内存进行检测并记录,提前预判内存故障风险,预防服务器宕机;故障处理精准识别到具体槽位,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于RAS的内存信息收集解析方法,其特征在于,包括如下步骤:
S1.基板管理控制器对可靠性可用性可维护性内存管理系统的内存信息进行自检,收集双列直插内存模块信息;
S2.基板管理控制器对保存的双列直插内存模块信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;
S3.基板管理控制器对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警。
2.如权利要求1所述的基于RAS的内存信息收集解析方法,其特征在于,步骤S1具体步骤如下:
S11.基板管理控制器接收安全外壳协议登录指令,判断需要监测所有在位双列直插内存模块信息还是指定名称的双列直插内存模块信息;
当需要监测所有在位双列直插内存模块信息时,进入步骤S12;
当需要监测指定名称的双列直插内存模块信息时,进入步骤S13;
S12.基板管理控制器通过信息收集指令使用高速串行计算机扩展总线标准通道访问可靠性可用性可维护性内存故障管理系统,进行所有双列直插内存模块信息自检,并进行收集,进入步骤S14;
S13.基板管理控制器根据输入的双列直插内存模块名称通过信息收集指令,使用高速串行计算机扩展总线标准通道访问可靠性可用性可维护性内存故障管理系统进行指定双列直插内存模块信息自检,并进行收集,进入步骤S14;
S14.基板管理控制器将收集的双列直插内存模块信息进行保存,生成双列直插内存模块信息原始文件。
3.如权利要求2所述的基于RAS的内存信息收集解析方法,其特征在于,步骤S2具体步骤如下:
S21.基板管理控制器通过信息解析指令对双列直插内存模块信息原始文件进行解析,判断内存是否存在故障;
若是,进入步骤S22;
若否,进入步骤S23;
S22.基板管理控制器将故障内存的双列直插内存模块信息保存到内存故障日志文件中;
S23.基板管理控制器将解析后的双列直插内存模块信息文件进行保存,生成双列直插内存模块信息解析文件。
4.如权利要求3所述的基于RAS的内存信息收集解析方法,其特征在于,步骤S14中,基板管理控制器将双列直插内存模块信息原始文件按照设定的路径存储在数字安全卡处;
步骤S22中,基板管理控制器将内存故障日志文件按照设定的路径存在数字安全卡卡处;
步骤S23中,基板管理控制器将解析后的双列直插内存模块信息文件按照设定路径存储在数字安全卡处。
5.如权利要求4所述的基于RAS的内存信息收集解析方法,其特征在于,还包括如下步骤:
定时对基板管理控制器的数字安全卡容量进行检测,判断数字安全卡可用容量是否小于设定阈值,并在数字安全卡可用容量小于设定阈值时,将数字安全卡上存储时间大于时间阈值的对应双列直插内存模块信息文件迁移到远程服务器进行存储。
6.如权利要求5所述的基于RAS的内存信息收集解析方法,其特征在于,双列直插内存模块信息原始文件及双列直插内存模块信息解析文件中双列直插内存模块信息包括双列直插内存模块身份识别号、槽位、通道以及序列号;
内存故障文件中故障内存的双列直插内存模块信息包括双列直插内存模块故障槽位以及故障类型。
7.如权利要求6所述的基于RAS的内存信息收集解析方法,其特征在于,步骤S3具体步骤如下:
S31.基板管理控制器按照预设周期对内存故障文件中所有故障内存的双列直插内存模块信息进行分析;
S32.基板管理控制器判断需要监测所有在位双列直插内存模块信息还是指定名称的双列直插内存模块信息;
当需要监测所有在位双列直插内存模块信息时,进入步骤S34;
当需要监测指定名称的双列直插内存模块信息时,进入步骤S33;
S33.基板管理控制器判断指定名称的双列直插内存模块是否发生故障,并在发生故障时,输出该双列直插内存模块的故障槽位以及故障通道,结束;
S34.基板管理控制器统计所有发生故障的双列直插内存模块数量及对应故障槽位和故障通道,并与历史服务器宕机故障发生时对应参数进行匹配,判断匹配指数是否超过预设阈值;
若是,进入服务器宕机故障预警;
若否,返回步骤S11。
8.一种基于RAS的内存信息收集解析系统,其特征在于,包括:
双列直插内存模块信息收集模块,用于对可靠性可用性可维护性内存管理系统的内存信息进行自检,收集双列直插内存模块信息;
双列直插内存模块信息解析模块,对保存的双列直插内存模块信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;
故障预判模块,对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警。
9.一种设备,其特征在于,
包括处理器和存储器;
其中,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得设备执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征在于,
所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1-7任一项所述的方法。
CN202310395331.9A 2023-04-13 2023-04-13 基于ras的内存信息收集解析方法、系统、设备及介质 Pending CN116501705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310395331.9A CN116501705A (zh) 2023-04-13 2023-04-13 基于ras的内存信息收集解析方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310395331.9A CN116501705A (zh) 2023-04-13 2023-04-13 基于ras的内存信息收集解析方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN116501705A true CN116501705A (zh) 2023-07-28

Family

ID=87319466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310395331.9A Pending CN116501705A (zh) 2023-04-13 2023-04-13 基于ras的内存信息收集解析方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN116501705A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407207A (zh) * 2023-12-13 2024-01-16 苏州元脑智能科技有限公司 一种内存故障处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407207A (zh) * 2023-12-13 2024-01-16 苏州元脑智能科技有限公司 一种内存故障处理方法、装置、电子设备及存储介质
CN117407207B (zh) * 2023-12-13 2024-03-08 苏州元脑智能科技有限公司 一种内存故障处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US7774651B2 (en) System and method to detect errors and predict potential failures
Oliner et al. What supercomputers say: A study of five system logs
Tan et al. Adaptive system anomaly prediction for large-scale hosting infrastructures
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN111414268A (zh) 故障处理方法、装置及服务器
CN116501705A (zh) 基于ras的内存信息收集解析方法、系统、设备及介质
Ghiasvand et al. Anomaly detection in high performance computers: A vicinity perspective
CN114816022B (zh) 一种服务器电源异常监控方法、系统及存储介质
Gurumdimma et al. Towards detecting patterns in failure logs of large-scale distributed systems
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN113076210B (zh) 服务器故障诊断结果通知方法、系统、终端及存储介质
CN113010341A (zh) 一种故障内存定位的方法和设备
CN116737444A (zh) 一种数据库服务器故障处理方法及系统
CN117076186A (zh) 一种内存故障检测方法、系统、装置、介质及服务器
CN103995759A (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN114003477B (zh) 慢盘诊断信息收集方法、系统、终端及存储介质
CN115543665A (zh) 一种内存可靠性评估方法、装置及存储介质
CN113064776A (zh) 一种bmc故障的诊断方法及装置
CN111884830A (zh) 一种基于bmc保留故障现场的方法及装置
Taerat et al. Using log information to perform statistical analysis on failures encountered by large-scale HPC deployments
CN117407207B (zh) 一种内存故障处理方法、装置、电子设备及存储介质
CN115150254B (zh) 一种PCIe链路故障检测方法、检测装置、设备及介质
CN113688017B (zh) 多节点BeeGFS文件系统自动化异常测试方法及装置
CN115913895A (zh) 一种服务器故障诊断告警的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination