CN115705260A - 一种信息处理方法、装置、计算机设备和存储介质 - Google Patents

一种信息处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115705260A
CN115705260A CN202110920582.5A CN202110920582A CN115705260A CN 115705260 A CN115705260 A CN 115705260A CN 202110920582 A CN202110920582 A CN 202110920582A CN 115705260 A CN115705260 A CN 115705260A
Authority
CN
China
Prior art keywords
memory
information
fault
target
log information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110920582.5A
Other languages
English (en)
Inventor
曾令新
傅欢
林哲伟
叶铮
牛犇
严勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110920582.5A priority Critical patent/CN115705260A/zh
Publication of CN115705260A publication Critical patent/CN115705260A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种信息处理方法、装置、计算机设备和存储介质,其中方法包括:获取针对目标设备中的内存组件的内存数据日志信息,内存数据日志信息由目标设备采集得到;对内存数据日志信息进行解析,根据第一解析结果确定目标设备的第一内存故障信息;获取管理设备发送的目标设备中的内存组件的组件环境日志信息;管理设备是用于对目标设备进行管理的设备,组件环境日志信息是由管理设备对目标设备进行管理的过程中所采集得到;对组件环境日志信息进行解析,根据第二解析结果确定目标设备的第二内存故障信息;根据第一内存故障信息和第二内存故障信息确定针对目标设备的目标内存故障信息,以此可以提高所获取到的目标内存故障信息的准确性。

Description

一种信息处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,对计算机设备的稳定性可靠性的要求越来越高,内存的运行频率也越来越快。而内存可以用于数据的存储,是计算机设备中必须的部件。当随着大量数据都存储到内存中,对内存的数量、容量等要求越来越高。随着内存容量数据不断增大,很容易出现内存报错。若持续出现内存报错就会导致计算机设备出现异常重启等问题。因此,如何准确地对出现故障的内存进行定位成为研究热点。
发明内容
本申请实施例提供了一种信息处理方法、装置、计算机设备和存储介质,可以提高所获取到的目标内存故障信息的准确性。
一方面,本申请实施例提供了一种信息处理方法,该方法包括:
获取针对目标设备中的内存组件的内存数据日志信息,内存数据日志信息由目标设备采集得到;
对内存数据日志信息进行解析,根据第一解析结果确定目标设备的第一内存故障信息;
获取管理设备发送的目标设备中的内存组件的组件环境日志信息;管理设备是用于对目标设备进行管理的设备,组件环境日志信息是由管理设备对目标设备进行管理的过程中所采集得到;
对组件环境日志信息进行解析,根据第二解析结果确定目标设备的第二内存故障信息;
根据第一内存故障信息和第二内存故障信息确定针对目标设备的目标内存故障信息。
一方面,本申请实施例提供了一种信息处理装置,该装置包括:
获取单元,用于获取针对目标设备中的内存组件的内存数据日志信息,内存数据日志信息由目标设备采集得到;
处理单元,用于对内存数据日志信息进行解析,根据第一解析结果确定目标设备的第一内存故障信息;
获取单元,还用于获取管理设备发送的目标设备中的内存组件的组件环境日志信息;管理设备是用于对目标设备进行管理的设备,组件环境日志信息是由管理设备对目标设备进行管理的过程中所采集得到;
处理单元,还用于对组件环境日志信息进行解析,根据第二解析结果确定目标设备的第二内存故障信息;
处理单元,还用于根据第一内存故障信息和第二内存故障信息确定针对目标设备的目标内存故障信息。
一方面,本申请实施例提供了一种计算机设备,该计算机设备包括处理器和存储器,处理器和存储器相互连接,其中,存储器用于存储计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,执行上述信息处理方法。
一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行上述信息处理方法。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述信息处理方法。
在本申请实施例中,故障诊断设备可以获取目标设备中的内存组件的内存数据日志信息和组件环境日志信息,然后分别对内存数据日志信息和组件环境日志信息进行解析,得到第一内存故障信息和第二内存故障信息。然后根据第一内存故障信息和第二内存故障信息确定目标设备的目标内存故障信息,实现了对故障内存组件的故障位置定位,提高所获取到的目标内存故障信息的准确性;同时通过不同途径获取与目标设备中的内存组件的内存数据日志信息和组件环境日志信息,然后结合内存数据日志信息和组件环境日志信息来确定目标设备的内存故障信息,提高了内存组件的故障定位的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种故障诊断系统的架构图;
图1b是本申请实施例提供的一种故障诊断系统的示意图;
图2是本申请实施例提供的一种信息处理方法的流程示意图;
图3是本申请实施例提供的一种故障内存组件的内存数据日志信息的示意图;
图4是本申请实施例提供的一种信息处理方法的流程示意图;
图5a是本申请实施例提供的一种信息处理方案的流程示意图;
图5b是本申请实施例提供的一种获取组件内存的故障槽位位置和内存型号示意图;
图5c是本申请实施例提供的一种综合判断内存组件故障的示意图;
图5d是本申请实施例提供的一种内存故障创单进行内存组件替换的示意图;
图6为本申请实施例提供的一种信息处理装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了能够更好地对目标设备进行内存故障分析,本申请实施例提供了一种信息处理方案以及相应的故障诊断系统,请参阅图1a,图1a为本申请实施例提供的一种故障诊断系统的架构图。该故障诊断系统可以包括至少一个目标设备101、至少一个故障诊断设备102和至少一个管理设备103。其中,目标设备101包括内存组件,该内存组件可以是内存条等等,例如内存组件为DIMM(Dual-Inline-Memory-Modules,双列直插式存储模块);目标设备101可以与故障诊断设备102进行通信;目标设备可以向故障诊断设备102可以对目标设备的内存组件进行故障分析。其中,该目标设备101上还可以设置有监控代理设备,可以采集目标设备101的内存组件的内存数据日志信息。
故障诊断设备102用于对目标设备101的内存组件进行故障诊断。该故障诊断设备102的架构可如图1b所示。该故障诊断设备的架构图包括数据接入层、逻辑处理层和存储层;数据处理层用于当目标设备的数量为多个时,对每个目标设备的内存数据日志信息进行负载均衡和任务调度;逻辑处理层用于对每个目标设备的内存数据日志信息进行解析,槽位转换和综合诊断等等,存储层用于存储目标设备的内存数据日志信息。且存储层可以提供三种数据库,分别为数据库Redis(Remote Dictionary Server,远程字典服务)、关系数据库Mysql(一种关系型数据库管理系统)、全文搜索引擎ES(Elasticsearch,全文搜索引擎)。
管理设备103同样可以与故障诊断设备102进行通信。管理设备103可以对目标设备101进行管理和监控。管理设备103可以是基本管理控制器(Baseboard ManagementController,BMC),此时管理设备103可以称为带外设备,该基本管理控制器用于监控和管理服务器的专用控制器,主要有以下4个功能:服务器资产信息管理,状态管理,远程控制,维护管理等等,或者管理设备103还可以是管理BMC的设备,主要功能是实现远程管控和故障监控。BMC可以获取目标设备的内存组件的内存数据日志信息,并发送给管理设备103,由管理设备103发送给故障诊断设备102。上述目标设备101、故障诊断设备102和管理设备103可以是服务器或终端设备。该终端设备可以是智能手机、平板电脑、笔记本电脑、台式电脑等等;该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布是式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个实施例中,本申请实施例所提出的信息处理方案可应用于上述故障诊断系统。信息处理方案大致原理为:当目标设备出现内存组件故障时,目标设备101可以采集自身的内存组件的内存数据日志信息,并向故障诊断设备102发送采集到的内存数据日志信息;故障诊断设备102可以对接收到的内存数据日志信息进行解析,得到针对目标设备101的第一内存故障信息。随后,管理设备103可以采集目标设备101的内存组件的组件环境日志信息,然后向故障诊断设备10发送内存组件的组件环境日志信息,并对组件环境日志信息进行解析,得到针对目标设备101的第二内存故障信息,通过第一内存故障信息和第二内存故障信息来对目标设备101进行综合诊断,得到目标设备101的内存故障信息。
通过上述信息处理方案,通过获取目标设备的内存组件的内存数据日志信息和内存组件的组件环境日志信息并进行解析,可以实现对目标设备内存组件进行故障诊断,提高所获取到的目标内存故障信息的准确性;且通过第一内存故障信息和第二内存故障信息来对目标设备的内存组件进行综合诊断,可以提高对内存组件故障定位的准确性。
基于上述信息处理方案和故障诊断系统,请参阅图2,图2为本申请实施例提供的一种信息处理方法的流程示意图。该方法可由上述故障诊断设备102执行,该故障诊断设备102可以是终端设备,也可以是服务器;该方法用于对目标设备的内存组件进行诊断,该目标设备可以是服务器或者终端设备,该信息处理方法可以包括以下步骤S201-205:
S201、获取针对目标设备中的内存组件的内存数据日志信息,内存数据日志信息由目标设备采集得到。
其中,内存组件可以是内存条等等。内存数据日志信息包括目标设备的内存组件的出错地址、内存组件的内存故障类型和内存槽位信息等等。出错地址包括目标设备的通信地址、内存组件在内存数据日志信息中出现错误行和列位置。通信地址可以是IP(Internet Protocol,网际互连协议)地址,或者MAC(Media Access Control Address,介质访问控制)地址;内存故障类型可以是UCE(uncorrect error,不可纠正错误)和CE(correct error,可纠正错误)。造成内存UCE的原因可以是内存组件损坏、内存组件松动等等;造成内存CE原因可以是使用内存资源时发生了冲突等。内存槽位信息可以用于确定内存组件的故障位置和目标设备的设备型号。
在具体实现中,当目标设备发生内存组件故障时,可能会导致目标设备异常重启,需要对内存的故障类型进行及时侦测和处理,目标设备可以采集自身关于内存组件的内存数据日志信息,并向故障诊断设备发送内存数据日志信息,然后故障诊断设备可以接收目标设备发送的内存数据日志信息。
在一个实施例中,目标设备可以包含寄存器,该寄存器用于对目标设备中的内存组件的内存数据进行中转,上述内存数据日志信息可以是由目标设备基于寄存器采集得到。在具体实现中,由于Mcelog(一种检查硬件错误模块)模块只能记录到关于内存组件(如DIMM(Dual-Inline-Memory-Modules,双列直插式存储模块))的Channel(通道)级别信息,或者Mcelog也可通过对比地址信息来定位到DIMM槽位位置信息,但是前提是需要记录每一款设备对应的设备型号的地址信息表。当存在上千款不同设备型号的设备,且种类还在不断更新时,若使用Mcelog模块则需要投入大量的人力进行日常维护,对于大规模集群无法实现。对于一个通道Channel插2条DIMM的设备无法从日志打印直接明确故障内存组件的DIMM槽位位置信息。而EDAC(Error Detection And Correction,错误侦测和纠正)模块是目标设备的操作系统自带的,只需要在目标设备的操作系统上加载EDAC模块,实现在不需要进行其他转换的情况下就能直接获取到发生不可纠正错误内存组件的EDAC日志信息,然后根据EDAC日志信息可以得到DIMM槽位位置信息,且EDAC槽位格式只与目标设备的CPU相关,不同厂商所生产的目标设备的设备型号不同,但是同CPU的EDAC槽位格式是一样的,通过EDAC日志信息在一定程度上降低对内存故障定位的降低复杂度。
因此,本申请实施例在目标设备的操作系统中可以部署EDAC模块,其中,目标设备的操作系统可以称为带内,然后通过EDAC模块对内存组件进行内存数据采集,并按照EDAC模块的输出格式输出EDAC日志信息,然后根据EDAC日志信息输出到指定文件(如Dmesg日志文件),从而得到内存组件的内存数据日志信息;可以理解的是,Dmesg日志文件中存储的信息为内存数据日志信息。
如图3所示,图3为内存组件的内存数据日志信息采集过程。当目标设备发生内存组件错误时,会通过中断信号上报目标设备的操作系统,然后操作系统中部署的EDAC模块自动对寄存器进行数据采集,并按照EDAC格式输出内存组件的EDAC日志信息,然后将EDAC日志信息打印到操作系统下的指定文件(即Dmesg日志),即得到内存组件的内存数据日志信息。其中,按照EDAC格式输出的EDAC日志信息可以为:
<6>[1614873.948317]mce:[Hardware Error]:Machine check events logged<4>[1614873.948933]EDAC MC3:1 UE memory read error on CPU_SrcID#1_MC#1_Chan#1_DIMM#0(channel:1slot:0page:0x28e9c5boffset:0xf40 grain:32-OVERFLOW err_code:0101:0091socket:1imc:1rank:0bg:3ba:2row:b36c col:2a0)
在一个实施例中,故障诊断设备可以在预设周期内获取针对目标设备中的内存组件的内存数据日志信息;其中,预设周期可以是1分钟、两分钟等等。或者,故障诊断设备可以实时拉取目标设备中内存组件的内存数据日志信息。
在一个实施例中,所述内存数据日志信息是由目标设备按照增量更新方式上报的。目标设备以采集周期向故障诊断设备发送最新的预设长度的内存数据日志信息,且当前发送的预设长度的内存数据日志信息是根据上一次内存数据日志信息的标记信息确定的。其中,标记信息用于指示当前发送的预设长度的内存数据日志信息的起始位置。采集周期可以是1分钟、2分钟等等,采集周期可以根据需求设置;预设长度可以是100K、200K、5M等等。预设长度可以根据需求设置;标记信息可以为字段信息,例如,预设长度为100K,标记信息可以是截取的上一次内存数据日志信息的长度的最后4K字段信息。上一次内存数据日志信息为100K,即内存数据日志信息包括0-99K对应的字段所指示的内存数据,然后目标设备向故障诊断设备发送100k内存数据日志信息,目标设备根据内存数据日志信息的上一次4K字段的标记信息,可以确定发送给故障诊断设备的内存数据日志信息包括100K-199K字段对应内存数据。通过增量方式发送内存数据日志信息可以解决日志重复上报和因为日志信息过大导致的通道堵塞等问题。
S202、对内存数据日志信息进行解析,根据第一解析结果确定目标设备的第一内存故障信息。
其中,第一内存故障信息可以包括目标设备中发生故障的内存组件的第一槽位位置以及发生故障的内存组件的第一槽位位置处的第一内存型号。第一内存型号可以包括内存组件的部件编号PN(Part Number,部件编号)和序列号SN(Serial Number,序列号)。
在具体实现中,故障诊断设备可以在接收到内存数据日志信息后,可以对内存数据日志信息进行解析,得到内存数据日志信息所包括的内存槽位信息和目标设备的第一设备型号。在一个实施例中,故障诊断设备可以直接在对内存数据日志信息进行解析后,可以直接得到目标设备的第一设备型号;在另一个实施例中,内存数据日志信息携带有通信地址,在对内存数据日志信息进行解析后,可以先得到目标设备的通信地址,然后根据该通信地址从存储的通信地址与设备型号之间的对应关系中确定目标设备的第一设备型号。应理解的是,将通过内存数据日志信息所解析出的目标设备的设备型号称为第一设备型号。
然后,在得到内存槽位信息和目标设备的第一设备型号之后,故障诊断设备可以根据内存槽位信息和第一设备型号匹配第一故障槽位位置以及第一故障槽位位置处的内存组件的第一内存型号;应理解的是:将通过解析内存数据日志信息所解析出的出故障的槽位位置称之为第一故障槽位位置,将第一故障槽位位置处的内存组件的型号称之为第一内存型号。在一个实施例中,故障诊断设备可以先根据内存槽位信息和第一设备型号匹配内存组件的第一故障槽位位置和第一内存组件槽位;其中,第一故障槽位位置可以用于指示组件内存在目标设备的主板上内存组件插槽的槽位号;第一内存组件槽位也可称为带内采集槽位,该第一内存组件槽位可以用于获取目标设备的第一内存型号。然后故障诊断设备根据第一内存组件槽位可以获取到第一内存型号。在具体实现中,在故障诊断设备中存储有内存槽位信息、设备型号、故障槽位位置和内存组件槽位之间的对应关系表,然后故障诊断设备可以根据内存槽位信息和第一设备型号从对应关系表中确定出第一故障槽位位置和第一内存组件槽位。其中,内存槽位信息、设备型号、故障槽位位置和内存组件槽位之间的对应关系表可以如表1所示。
表1
Figure BDA0003207263880000081
在一个实施例中,故障诊断设备根据第一内存组件槽位可以获取到第一内存型号的具体实现方式为:故障诊断设备可以根据第一内存组件槽位从内存组件槽位、部件编号和序列号之间的关联关系表中确定与第一内存组件槽位关联的部件编号和序列号,得到第一内存型号,以使后续根据部件编号和序列号可以获取第一内存型号对应的内存,便于维护人员直接获取第一内存进行维修内存故障维修。然后将第一故障槽位位置和第一内存型号作为第一内存故障信息。其中,内存型号、部件编号和序列号之间的关联关系表可如下面表2所示。
表2
Figure BDA0003207263880000091
在执行步骤S202之前,故障诊断设备还可以对目标设备的内存组件进行资产信息进行采集,采集的资产信息可以包括内存型号、部件编号和序列号,并内存型号部件编号、序列号进行关联,并生成内存型号、部件编号和序列号之间的关联关系表。在具体实现中,故障诊断设备可以利用dmidecode命令(一种获取硬件命令)周期性或者不定时采集目标设备的内存组件的资产信息。
S203、获取管理设备发送的目标设备中的内存组件的组件环境日志信息;管理设备是用于对目标设备进行管理的设备,组件环境日志信息是由管理设备对目标设备进行管理的过程中所采集得到。
其中,目标设备还可以包含传感器,组件环境日志信息可以包括传感器槽位信息、目标设备的通信地址等等。传感器槽位信息用于指示传感器所处于目标设备主板上的位置。
在具体实现中,当目标设备的内存组件发生故障时,目标设备的内存组件所处的环境可能会发生变化,管理设备可以在管理目标设备的过程中对目标设备的内存组件的组件环境日志信息进行采集。然后通过Snmp trap(一种信息上报机制)上报到故障诊断设备,然后故障诊断设备接收管理设备上报的内存组件的组件环境日志信息。
在一个实施例中,该传感器用于对目标设备中的内存组件的组件环境信息进行采集,组件环境日志信息是由管理设备在对所述目标设备中的传感器进行管理的过程中采集得到。在具体实现中,一个内存组件会配置一个或者多个传感器。每个传感器可以对内存组件所处的组件环境进行监控。其中,传感器可以是温度传感器、气敏传感器等等。例如,当内存组件发生故障(如内存损坏)时,可能会导致内存组件的温度变高,温度传感器此时可以采集该内存组件的组件环境日志信息。然后管理设备在对目标设备中的传感器进行管理的过程中可以获取传感器采集得到的内存组件的组件环境信息。
在一个实施例中,故障诊断设备可以周期性获取管理设备发送的目标设备中内存组件的组件环境日志信息,或者故障诊断设备可以实时获取管理设备发送的目标设备中的内存组件的组件环境日志信息。其中,该组件环境日志信息可以如上述内存数据日志信息一样以增量更新方式发送给故障诊断设备,在此不再赘述。
S204、对组件环境日志信息进行解析,根据第二解析结果确定目标设备的第二内存故障信息。
其中,第二内存故障信息包括目标设备中发生故障内存组件的第二故障位置和发生故障内存组件的第二故障位置处的第二内存型号。第二内存型号可以包括内存组件的部件编号PN和序列号SN。第二故障位置和序列号是为了让维修用户具备可操作性和减少误换,部件编码是用于获取与故障内存组件同型号的内存组件。
在具体实现中,故障诊断设备在获取到组件环境日志信息之后,对组件环境日志信息进行解析,得到组件环境日志信息所包括的传感器槽位信息和第二设备型号,应理解的是,将通过解析组件环境日志信息所解析出的目标设备的设备型号称为第二设备型号。在一个实施例中,故障诊断系统在对组件环境日志信息进行解析后,可以直接得到传感器槽位信息和第二设备型号。在另一个实施例中,组件环境日志信息包括目标设备的通信地址,故障诊断系统在对组件环境日志信息进行解析后,可以得到传感器槽位信息和目标设备的通信地址;然后故障诊断设备根据通信地址与设备型号之间的对应关系,可以得到目标设备的第二设备型号。
然后,在得到传感器槽位信息和目标设备的第二设备型号之后,故障诊断设备可以根据传感器槽位信息和第二设备型号匹配第二故障槽位位置以及第二故障槽位位置处的内存组件的第二内存型号,应理解的是,将通过解析组件环境日志信息所解析出的出故障的槽位位置称之为第二故障槽位位置,将第二故障槽位位置处的内存组件的型号称之为第二内存型号。在具体实现中,故障诊断设备存储有传感器槽位信息、设备型号、故障槽位位置和内存组件槽位之间的对应关系表,然后故障诊断设备可以根据传感器槽位信息和第二设备型号从对应关系表中确定出第二故障槽位位置和第二内存组件槽位,其中,第二故障槽位位置可以用于指示目标设备主板上发生故障的内存组件的位置。接着,故障诊断设备可以从内存组件槽位、部件编号和序列号之间的关联关系表中确定出与第二内存组件槽位关联的部件编号和序列号,得到第二内存型号,以使后续根据第二内存型号获取第二内存型号对应的内存,便于维护人员直接获取第二内存进行维修内存故障维修。然后将第二故障槽位位置和第二内存型号作为第二内存故障信息。其中,传感器槽位信息、设备型号、故障槽位和内存组件槽位之间的对应关系表可以如表3所示。
表3
设备型号 故障槽位位置 传感器槽位信息 内存组件槽位
Inur5212M CPU0_C0D0 CPU0_C0D0 CPU0_DIMM0
HR4900G3 A1 CPU0_C0D1 Ch1 DIMM A1
Fob761-FX J1005A0 CPU1_C0D1 DIMM0A0
LOH650X CPU1DIMM CPU1_C1D0 CPU1DIMM
S205、根据第一内存故障信息和第二内存故障信息确定针对目标设备的目标内存故障信息。
在具体实现中,故障诊断设备可以将第一内存故障信息与第二内存故障信息进行对比,若第一内存故障信息与第二内存故障信息相同,说明是目标设备的内存组件的同一位置发生故障,则可以将第一内存信息或第二内存故障信息作为目标设备的内存故障信息。在一个实施例中,若第一内存故障信息和第二内存故障信息不同,说明目标设备存在多个内存组件故障,则可以将第一内存故障信息和第二内存故障信息均作为目标设备内存故障信息。
在另一个实施例中,故障诊断设备还可以获取历史故障信息,然后根据历史故障信息对第一内存故障信息和第二内存故障信息进行比对,从第一内存故障信息和第二内存故障信息中确定与历史故障信息相同的内存故障信息;并将与历史故障信息相同的内存故障信息作为目标设备的目标内存故障信息。
在本申请实施例中,故障诊断设备可以获取目标设备中的内存组件的内存数据日志信息和组件环境日志信息,然后分别对内存数据日志信息和组件环境日志信息进行解析,得到第一内存故障信息和第二内存故障信息。然后根据第一内存故障信息和第二内存故障信息确定目标设备的目标内存故障信息,实现了对故障内存组件的故障位置定位,提高所获取到的目标内存故障信息的准确性;同时通过不同途径获取与目标设备中的内存组件的内存数据日志信息和组件环境日志信息,然后结合内存数据日志信息和组件环境日志信息来确定目标设备的内存故障信息,提高了内存组件的故障定位的准确性。
基于上述信息处理方案和故障诊断系统,请参阅图4,图4为本申请实施例提供的一种信息处理方法的流程示意图。该方法可由上述故障诊断设备102执行,该信息处理方法可以包括以下步骤S401-408:
S401、获取针对目标设备中的内存组件的内存数据日志信息,内存数据日志信息由目标设备采集得到。
在一个实施例中,在故障诊断设备中存储有不同故障类型的判断逻辑。例如,故障类型为内存UCE,该内存UCE对应的判断逻辑可以是通过内存UCE的故障关键字识别。故障诊断设备可以获取目标设备发送的针对内存组件的数据日志信息集合,其中,该日志信息集合包括多个数据日志信息。每个数据日志信息包含一个故障类型下故障关键词。故障诊断设备可以先确定目标故障类型,可以理解为故障诊断设备需要对哪种故障类型进行分析。然后获取目标故障类型下故障关键词,并从数据日志信息集合中查找包含目标故障类型下故障关键词的数据日志信息,然后将查找到的包含目标故障类型下故障关键词的数据日志信息确定为内存数据日志信息。
在一个实施例中,故障诊断设备获取目标设备发送的数据日志信息集合的实现方式可包括以下任意一种:(1)故障诊断设备可以按照日志拉取周期,向目标设备拉取日志信息集合。日志拉取周期可以根据数据日志信息集合中的数据日志信息数量决定,例如,当前数据日志信息集合中的数据日志信息数量为10个,日志拉取周期可以设置为10分钟;当前数据日志信息集合中的数据日志信息数量为5个,日志拉取周期可以设置为5分钟;或者,日志拉取周期还可以根据需求或者经验设置。(2)故障诊断设备可以获取目标设备按照日志同步周期所同步过来的数据日志信息集合。其中,日志同步周期可以是1分钟、2分钟等等;日志同步周期可以根据需求或经验设置。应理解的是,按照日志同步周期所同步过来的数据日志信息集合中的多个数据日志信息均是在原有管理设备的原始数据日志信息基础上新产生的数据日志信息。其中,数据日志信息集合中的多个数据日志信息的大小可以是相同的,也可以不同。每个数据日志信息大小可以在100-5M进行选择。
S402、对内存数据日志信息进行解析,根据第一解析结果确定目标设备的第一内存故障信息,第一内存故障信息包括针对目标设备的第一故障槽位位置和第一故障槽位位置处的内存组件的第一内存型号。
在一个实施例中,目标设备的数量为多个,一个目标设备对应一个内存数据日志信息;故障诊断设备对内存数据日志信息进行解析的具体实现方式为:将每个目标设备对应的内存数据日志信息分别同步至对应的信息解析线程,一个目标设备对应一个信息解析线程;然后基于每个日志设备对应的信息解析线程分别对每个目标设备对应的内存数据日志信息进行解析,这样可以提高对多个目标设备故障定位效率,也可以避免对多个目标设备的遗漏问题。其中,多个信息解析线程可以属于同一故障诊断设备;或者一个信息解析线程对应一个故障诊断设备。当目标设备的数量为多个,在图1b中,目标设备为服务器集群A和服务集群B中的服务器。故障诊断设备的数据接入层可以对每个服务器进行任务调度,将每个服务器的内存数据日志信息同步至逻辑处理层中对应的信息解析线程,然后基于每个日志设备对应的信息解析线程分别对每个目标设备对应的内存数据日志信息进行解析,并将每个内存数据日志信息和对应的第一解析结果存储在存储层。例如,目标设备的数量为3个,分别为设备1、设备2和设备3;故障诊断设备的数据接入层对这个3个目标设备进行任务调度,将设备1的内存数据日志信息同步至信息解析线程1,然后信息解析线程1对设备1的内存数据日志信息进行解析;将设备2的内存数据日志信息同步至信息解析线程2,然后信息解析线程2对设备2的内存数据日志信息进行解析;将设备3的内存数据日志信息同步至信息解析线程3,然后信息解析线程3对设备3的内存数据日志信息进行解析。
在一个实施例中,内存数据日志信息包括多个,故障诊断设备对内存数据日志信息进行解析的具体实现方式为:故障诊断设备可以按照每个内存数据日志信息的故障类型进行分组,得到多个内存数据日志分组;然后将每个内存数据日志分组分别同步至对应的信息解析线程,一个内存数据日志信息分组对应一个信息解析线程;故障诊断设备可以基于内存数据日志信息分组对应的信息解析线程对内存数据日志信息分组中的内存数据日志信息进行解析。这样可以提高对多个内存数据日志信息并行处理,提高了对目标故障的故障定位效率。例如,目标设备的内存数据日志信息的数量为3个,3个内存数据日志信息分别为内存数据日志信息1、内存数据日志信息2和内存数据日志信息3;其中,内存数据日志信息1和内存数据日志信息2的故障类型为UCE,内存数据日志信息3的故障类型为CE;然后故障诊断设备将内存数据日志信息1和内存数据日志信息2划分为内存数据日志信息分组1;将内存数据日志信息3划分为内存数据日志信息分组2;接着,故障诊断设备将内存数据日志信息分组1同步到信息解析线程1,并基于信息解析线程1对内存数据日志信息分组1中的内存数据日志信息进行解析;故障诊断设备将内存数据日志信息分组2同步到信息解析线程2,并基于信息解析线程2对内存数据日志信息分组2中的内存数据日志信息进行解析。
S403、获取管理设备发送的目标设备中的内存组件的组件环境日志信息;管理设备是用于对目标设备进行管理的设备,组件环境日志信息是由管理设备对目标设备进行管理的过程中所采集得到。
在一个实施例中,故障诊断设备可以获取目标设备发送的针对内存组件的组件环境日志集合,其中,该组件环境日志集合包括多个组件环境日志。每个组件环境日志包含一个故障类型下故障关键词。例如,故障类型为UCE,该个故障类型下故障关键词可以包括UCE;故障诊断设备可以先确定目标故障类型,可以理解为故障诊断设备需要对哪种故障类型进行分析。然后获取目标故障类型下故障关键词,并从组件环境日志集合中查找包含目标故障类型下故障关键词的组件环境日志,然后将查找到的包含目标故障类型下故障关键词的组件环境日志确定为组件环境日志信息。
在一个实施例中,故障诊断设备获取目标设备发送的组件环境日志集合的实现方式可包括以下任意一种:(1)故障诊断设备可以按照日志拉取周期,向目标设备拉取日志信息集合。日志拉取周期可以根据组件环境日志集合中的组件环境日志数量决定,例如,当前组件环境日志集合中的组件环境日志数量为10个,日志拉取周期可以设置为10分钟;当前组件环境日志集合中的数组件环境日志数量为5个,日志拉取周期可以设置为5分钟;或者,日志拉取周期还可以根据需求或者经验设置。(2)故障诊断设备可以获取目标设备按照日志同步周期所同步过来的组件环境日志集合。其中,日志同步周期可以是1分钟、2分钟等等;日志同步周期可以根据需求或经验设置。应理解的是,按照日志同步周期所同步过来的组件环境日志集合中的多个组件环境日志均是在原有管理设备的原始组件环境日志基础上新产生的组件环境日志。其中,组件环境日志集合中的多个组件环境日志的大小可以是相同的,也可以不同。每个组件环境日志的大小可以在100-5M进行选择。
S404、对组件环境日志信息进行解析,根据第二解析结果确定目标设备的第二内存故障信息,第二内存故障信息包括针对目标设备的第二故障槽位位置和第二故障槽位位置处的内存组件的第二内存型号。
在一个实施例中,目标设备的数量为多个,一个目标设备对应一个组件环境日志信息;故障诊断设备对组件环境日志信息进行解析的具体实现方式为:将每个目标设备对应的组件环境日志信息分别同步至对应的信息解析线程,一个目标设备对应一个信息解析线程;然后基于每个日志设备对应的信息解析线程分别对每个目标设备对应的组件环境日志信息进行解析。其中,多个信息解析线程可以属于同一故障诊断设备;或者一个信息解析线程对应一个故障诊断设备。
在一个实施例中,组件环境日志信息包括多个,故障诊断设备对组件环境日志信息进行解析的具体实现方式为:故障诊断设备可以按照每个组件环境日志信息的故障类型进行分组,得到多个组件环境日志信息分组;然后将每个组件环境日志信息分组分别同步至对应的信息解析线程,一个组件环境日志信息分组对应一个信息解析线程;故障诊断设备可以基于组件环境日志信息分组对应的信息解析线程对该组件环境日志信息分组中的组件环境日志信息进行解析。
S405、若第一故障槽位位置与第二故障槽位位置相同,则将第一内存故障信息或第二内存故障信息作为目标内存故障信息。
在具体实现中,故障诊断设备可以将第一故障槽位位置与第二故障槽位位置是否相同,若确定第一故障槽位位置和第二故障槽位位置相同,说明是目标设备的内存组件的同一位置发生故障,则将第一内存故障信息或第二内存故障信息作为目标内存故障信息。若确定第一故障槽位位置和第二故障槽位位置不相同,说明目标设备的内存组件的多个位置发生故障,则将第一内存故障信息和第二内存故障信息均作为目标内存故障信息,并直接输出提示信息,该提示信息包括第一内存故障信息和第二内存故障信息,该提示信息用于指示对目标设备存在内存组件的多个位置故障。或者,若确定第一故障槽位位置和第二故障槽位位置不相同,则执行步骤S406。
在一个实施例中,在将第一内存故障信息或第二内存故障信息作为目标内存故障信息之后,故障诊断设备可以建立关于目标设备的内存组件的维修单,该维修单中包括目标内存故障信息,并将该维修单发送给处理内存组件的相关用户。
S406、若第一故障槽位位置与第二故障槽位位置不相同,则获取目标设备的历史故障信息,根据历史故障信息获取历史故障槽位位置。
其中,历史故障信息可以包括历史故障位置槽位。该历史故障槽位位置是指目标设备的内存组件出现故障的槽位位置;若确定第一故障槽位位置与第二故障槽位位置不相同,则故障诊断设备可以从预设存储空间中获取目标设备的历史故障信息,并从历史故障信息中直接获取历史故障槽位位置。其中,预设存储空间可以是故障诊断设备的本地空间,或者区块链网络。
在一个实施例中,故障诊断设备可以将历史故障槽位位置分别与第一故障槽位位置和第二故障槽位位置进行对比,若确定历史故障槽位位置和第一故障槽位位置相同,则执行步骤S407;若确定历史故障槽位位置和第二故障槽位位置相同,则执行步骤S408。
S407、若第一故障槽位位置与历史故障槽位位置相同,则将第一内存故障信息确定为目标内存故障信息。
在一个实施例中,故障诊断设备在将第一内存故障信息确定为目标内存故障信息,可以获取历史故障信息对应的维修单,并将该维修单作为目标设备的内存组件的维修单,并将目标设备的维修单发送给处理内存组件的相关用户,其中该维修单包括第一故障槽位位置、内存组件的部件编码PN和序列号SN。第一故障槽位位置可以帮助维修人员快速找到内存组件故障的位置,具备可操作性,减少误换的情况;部件编码PN和序列号SN可以帮助维修人员根据维修单可以快速领取到故障内存组件的备件。
S408、若第二故障槽位位置与历史故障槽位位置相同,则将第二内存故障信息确定为目标内存故障信息。
在一个实施例中,故障诊断设备在将第二内存故障信息确定为目标内存故障信息,可以获取历史故障信息对应的维修单,并将该维修单作为目标设备的维修单,并将目标设备的维修单发送给处理目标设备的内存组件的维修人员。
在本申请实施例中,故障诊断设备分别对内存数据日志信息和组件环境日志信息进行解析,得到第一内存故障信息和第二内存故障信息,然后根据第一内存故障信息包括的第一故障槽位位置和第二内存故障信息所包括的第二故障槽位位置,确定目标设备的目标故障信息,提高了所获取到的目标内存故障信息的准确性;同时在第一故障槽位位置和第二故障槽位位置相同时,获取目标设备的历史故障信息来进一步对第一故障槽位位置和第二故障槽位位置进行对比,进一步提高了对内存组件的故障定位准确性。
基于上述提供的信息处理方法,本申请实施例还提供了一种信息处理方案,该信息处理方案以目标设备为服务器、服务器的内存组件出现不可纠正错误为例来进行说明,该信息处理方案大致原理可如图5a所示:通过在服务器的带内(即操作系统)部署EDAC模块,当内存组件发生不可纠正故障时EDAC模块可以采集EDAC日志信息,并将EDAC日志进行日志打印到指定文件(即指定文件中包括内存数据日志信息);然后通过带内的代理监控设备将内存数据日志信息收集上传到后台系统(即故障诊断设备),故障诊断设备对内存数据日志信息进行日志统一接入,并对内存数据日志信息进行相应的定位诊断,解析和转换,最后输出不可纠正内存的物理丝印信息(即对应第一故障槽位位置),部件编码,序列号信息。然后故障诊断设备还可以对内存组件进行资产信息采集。该资产信息包括内存组件槽位、部件编号和序列号;故障诊断设备还可以拉取一定周期时间内的内存相关告警数据(即拉取内存组件的组件环境日志信息)进行综合分析;并在综合分析之后,会针对不同的情况确定不同的提单策略,例如,提单策略可能是替换内存&CPU&主板等。当替换策略确定后故障诊断设备会直接对接故障处理系统和备件系统,然后自动生成硬件故障替换单给到相应的现场维修工程师,备件系统也会根据故障诊断设备提供的部件编码和序列号信息出库同型号的备内存组件,由运维工程师申领后对服务器的故障内存组件进行维修和替换,通过本方案可实现由多厂商多设备型号组成的服务器集群的内存不可纠正错误的监控,诊断,转换,处理。
其中,故障诊断设备对内存数据日志信息进行相应的定位,解析和转换的具体实现过程如图5b所示,故障诊断设备可以根据不可纠正错误下关键词对指定文件进行筛选,得到内存数据日志信息,然后对内存数据日志信息进行解析,可以获取到内存槽位信息和服务器的设备型号;然后还可以获取服务器的资产信息;根据EDAC槽位信息(即内存槽位信息)和服务器的设备型号可以进行槽位转换,即根据EDAC槽位信息和服务器的设备型号从EDAC槽位信息、服务器的设备型号、故障槽位位置和内存型号可以确定服务器的内存组件的物理丝印信息和内存组件槽位。物理丝印信息是服务器主板上内存组件插槽旁边的槽位号,内存组件槽位用于获取内存组件的部件编码PN和序列号SN。然后根据内存组件槽位确定处内存组件的部件编码PN和序列号SN。
需要说明的是,任何一款厂商设备型号的物理丝印信息,EDAC槽位信息所指示的槽位,内存组件槽位都是固定的,不会随着配置硬盘内存数量的变化的改变而变化,所以维护成本很低。
然后,故障诊断设备还可以拉取一定周期时间内的内存相关告警数据(即拉取内存组件的组件环境日志信息)进行综合分析的具体实现过程如图5c所示。
节点①、设置告警缓冲,由于带内内存组件故障确认后首先会等待一定时间,主要目的是防止带外设备(即管理设备)上报内存组件的组件环境日志信息有时间差,避免带外设备上报内存组件的组件环境日志信息时间比带内内存组件故障上报慢导致综合判断结果出现偏差。
节点②、判断带外设备发送的组件环境日志信息是否有内存组件报错,如果发生内存组件故障,则执行节点3,如果没有发生内存组件故障则执行节点4。
节点③、判断带外报错的内存组件的故障位置跟带内报错的内存故障的内存组件的故障位置是否同一故障位置,如果是同一故障位置则执行节点4,如果不是同一故障位置则执行节点7。
节点④、拉取服务器的历史故障信息,该历史故障信息用于判断是否是同一内存组件重复故障。
节点⑤、通过历史故障信息判断是否是首次报错建单,如果是首次报错建单则执行转节点8,如果不是首次报错建单则执行节点6。
节点⑥、如果不是首次报错建单,则需要进一步判断该内存组件之前在建单时是否有进行运维替换,如果在建单时有进行运维替换则属于重复告警,属于疑难问题,需要排查是否是服务器主板CPU故障导致的内存组件报错,并执行节点7,如果之前报错建单时未及时进行运维替换,则可直接创建内存故障单,并执行节点8。
节点⑦、人工诊断节点,主要处理多内存报错和同内存组件的槽位位置内存重复报错的情况,有相应的SOP处理流程覆盖,诊断完成后会创建相应的硬件替换单,并执行节点8。
节点⑧、确认故障后可通过创建相应的硬件故障替换单。
在创建相应的硬件故障替换单之后,如图5d所示,还可包括以下步骤:
(1)自动出库备件:备件系统会根据故障诊断系统发送的故障内存组件的部件编码信息自动生成一个备件出库单,出库一个与故障内存组件同型号的备件用于替换,现场运维人员可以凭借这个备件出库单到备件库领取相应的备件(备件主要指内存组件),从而可保证现场收到工单后能快速领取到相应的备件;
(2)建立故障替换工单:故障起单后,除了备件出库单外现场运维人员还会收到一个内存组件替换的故障替换工单(故障替换工单主要指内存替换工单),故障替换工单上会包含服务器主板上的故障槽位位置信息,需要替换的内存型号(该内存型号包括部件编码PN和SN信息等),现场运维会根据故障替换工单进行相应的运维替换。(3)故障验收,系统诊断设备在现场运维替换内存组件故障之后,会进行内存组件故障结单验收,包括Ping和SSH(安全外壳协议,Secure Shell)检查,内存条数和容量检查以及SN检验,保证现场处理质量。
通过上述信息处理方案,包括以下有益效果:
1、服务器和故障诊断设备分离,服务器只负责采集原始日志,程序运算逻辑则部署在故障诊断设备,一来可以避免因为程序运算导致操作系统性能波动,二来诊断逻辑在运维故障诊断设备,可随时修改和更新内存故障的判断逻辑(即故障类型下关键词识别),可实现监控逻辑的分钟级更新。
2、本申请通过在故障诊断设备部署槽位转换节点,可实现在不更新服务器端程序的情况下快速适配新的服务器设备型号,即可快速适配不同厂商不同平台的设备型号,并且最后输出的是物理丝印信息,适合互联网多厂商多设备型号的集群。
3、本申请能实现内存组件UCE故障的自动化监控&诊断&处理,对服务器端的内存故障进行实时的监控诊断和处理,及时处理避免因长时间未处理导致的二次宕机。
4、本申请还通过关联内存组件的资产信息,获取到相应的内存PN和SN信息,可识别重复故障,并且通过关联带外设备的内存组件的组件环境信息以及历史故障信息可提高诊断准确度。
在将该信息处理方案应用于设备诊断,通过该方案建单超过1000+;即通过该方案识别到的内存不可纠正错误操作1000个,并且已经监控覆盖了20+厂商设备型号,涉及服务器台数30万以上,内存条数超过300万条;同时通过该方案将内存故障的发现及处理时间从3天缩短到3小时内,提高内存故障处理的效率。
进一步的,请参见图6,其是本申请实施例提供的一种信息处理装置的结构示意图。如图6所示,信息处理装置可以应用于上述图2或图4对应实施例中的计算机设备,具体的,信息处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如信息处理装置为一个应用软件;该信息处理装置可以用于执行本申请实施例提供的方法中的相应步骤。
获取单元601,用于获取针对目标设备中的内存组件的内存数据日志信息,内存数据日志信息由目标设备采集得到;
处理单元602,用于对内存数据日志信息进行解析,根据第一解析结果确定目标设备的第一内存故障信息;
获取单元601,还用于获取管理设备发送的目标设备中的内存组件的组件环境日志信息;管理设备是用于对目标设备进行管理的设备,组件环境日志信息是由管理设备对目标设备进行管理的过程中所采集得到;
处理单元602,还用于对组件环境日志信息进行解析,根据第二解析结果确定目标设备的第二内存故障信息;
处理单元602,还用于根据第一内存故障信息和第二内存故障信息确定针对目标设备的目标内存故障信息。
在一个实施例中,目标设备包含寄存器和传感器,寄存器用于对目标设备中的内存组件的内存数据进行中转,传感器用于对目标设备中的内存组件的组件环境进行检测,内存数据日志信息是由目标设备基于寄存器采集得到,组件环境日志信息是由管理设备在对目标设备中的传感器进行管理的过程中采集得到。
在一个实施例中,处理单元602在对内存数据日志信息进行解析,根据第一解析结果确定目标设备的第一内存故障信息时,可具体用于:
对内存数据日志信息进行解析,得到内存槽位信息和目标设备的第一设备型号;
根据内存槽位信息和第一设备型号匹配第一故障槽位位置以及第一故障槽位位置处的内存组件的第一内存型号;
将第一故障槽位位置和第一内存型号确定为第一内存故障信息。
在一个实施例中,处理单元602在对组件环境日志信息进行解析,根据第二解析结果确定目标设备的第二内存故障信息时,可具体用于:
对组件环境日志信息进行解析,得到传感器槽位信息和目标设备的第二设备型号;
根据传感器槽位信息和第二设备型号匹配第二故障槽位位置以及第二故障槽位位置处的内存组件的第二内存型号;
将第二故障槽位位置和第二内存型号确定为第二内存故障信息。
在一个实施例中,第一内存故障信息包括针对目标设备的第一故障槽位位置和第一故障槽位位置处的内存组件的第一内存型号;第二内存故障信息包括针对目标设备的第二故障槽位位置和第二故障槽位位置处的内存组件的第二内存型号;
处理单元602在根据第一内存故障信息和第二内存故障信息确定针对目标设备的目标内存故障信息时,可具体用于:
若第一故障槽位位置与第二故障槽位位置相同,则将第一内存故障信息或第二内存故障信息作为目标内存故障信息。
在一个实施例中,处理单元602还用于:
若第一故障槽位位置与第二故障槽位位置不相同,则获取目标设备的历史故障信息;
根据历史故障信息获取历史故障槽位位置;
若第一故障槽位位置与历史故障槽位位置相同,则将第一内存故障信息确定为目标故障信息;
若第二故障槽位位置与历史故障槽位位置相同,则将第二内存故障信息确定为目标内存故障信息。
在一个实施例中,获取针对目标设备的内存数据日志信息,获取单元601,用于:获取目标设备发送的针对内存组件的数据日志信息集合;数据日志信息集合包含多个数据日志信息;获取目标故障类型,并获取目标故障类型下的故障关键词;
处理单元602,用于将多个日志信息中包含故障关键词的数据日志信息,确定为内存数据日志信息。
在一个实施例中,目标设备的数量为多个,一个目标设备对应一个内存数据日志信息;
处理单元602在对内存数据日志信息进行解析时,可具体用于:
将每个目标设备对应的内存数据日志信息分别同步至对应的信息解析线程;一个目标设备对应一个信息解析线程;
基于每个目标设备对应的信息解析线程分别对每个目标设备对应的内存数据日志信息进行解析。
根据本申请的一个实施例,图2或图4所示的方法所涉及的各个步骤均可以是由图6所示的信息处理装置中的各个单元执行的。例如,图2所示的步骤S201由图6中所示的获取单元601来执行,步骤S202由图6中所示的处理单元602来执行,步骤S203由图6中所示的获取单元601来执行,步骤S204-S205由图6中所示的处理单元602来执行。又如,图4所示的步骤S401由图6中所示的获取单元601来执行,步骤S402由图6中所示的处理单元602来执行,步骤S403由图6中所示的获取单元601来执行,步骤S404-405由图6中所示的处理单元602来执行,步骤S406由图6中所示的获取单元601来执行;步骤S407-S408由图6中所示的处理单元602来执行。
根据本申请的另一个实施例,图6所示的信息处理装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以是由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,基于信息处理装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过包括中央处理单元(Central ProcessingUnit,CPU),随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图2或图4所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6所示的信息处理装置,以及来实现本申请实施例的信息处理方法。的计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算机设备中,并在其中运行。
在本申请实施例中,故障诊断设备可以获取目标设备中的内存组件的内存数据日志信息和组件环境日志信息,然后分别对内存数据日志信息和组件环境日志信息进行解析,得到第一内存故障信息和第二内存故障信息。然后根据第一内存故障信息和第二内存故障信息确定目标设备的目标内存故障信息,实现了对故障内存组件的故障位置定位,提高所获取到的目标内存故障信息的准确性;同时通过不同途径获取与目标设备中的内存组件的内存数据日志信息和组件环境日志信息,然后结合内存数据日志信息和组件环境日志信息来确定目标设备的内存故障信息,提高了内存组件的故障定位的准确性。
进一步地,请参见图7,图7是本申请实施例提供的一种计算机设备的结构示意图。上述图2或图4对应实施例中的故障诊断设备可以为图7所示的计算机设备。如图7所示,计算机设备可以包括:处理器701、输入设备702,输出设备703和存储器704。上述处理器701、输入设备702、输出设备703和存储器704通过总线705连接。存储器704用于存储计算机程序,计算机程序包括程序指令,处理器701用于执行存储器704存储的程序指令。
在本申请实施例中,处理器701通过运行存储器704中的可执行程序代码,执行如下操作:获取针对目标设备中的内存组件的内存数据日志信息,内存数据日志信息由目标设备采集得到;对内存数据日志信息进行解析,根据第一解析结果确定目标设备的第一内存故障信息;获取管理设备发送的目标设备中的内存组件的组件环境日志信息;管理设备是用于对目标设备进行管理的设备,组件环境日志信息是由管理设备对目标设备进行管理的过程中所采集得到;对组件环境日志信息进行解析,根据第二解析结果确定目标设备的第二内存故障信息;根据第一内存故障信息和第二内存故障信息确定针对目标设备的目标内存故障信息。
在一个实施例中,目标设备包含寄存器和传感器,寄存器用于对目标设备中的内存组件的内存数据进行中转,传感器用于对目标设备中的内存组件的组件环境进行检测,内存数据日志信息是由目标设备基于寄存器采集得到,组件环境日志信息是由管理设备在对目标设备中的传感器进行管理的过程中采集得到。
在一个实施例中,处理器701在对内存数据日志信息进行解析,根据第一解析结果确定目标设备的第一内存故障信息时,可具体用于:
对内存数据日志信息进行解析,得到内存槽位信息和目标设备的第一设备型号;
根据内存槽位信息和第一设备型号匹配第一故障槽位位置以及第一故障槽位位置处的内存组件的第一内存型号;
将第一故障槽位位置和第一内存型号确定为第一内存故障信息。
在一个实施例中,处理器701在对组件环境日志信息进行解析,根据第二解析结果确定目标设备的第二内存故障信息时,可具体用于:
对组件环境日志信息进行解析,得到传感器槽位信息和目标设备的第二设备型号;
根据传感器槽位信息和第二设备型号匹配第二故障槽位位置以及第二故障槽位位置处的内存组件的第二内存型号;
将第二故障槽位位置和第二内存型号确定为第二内存故障信息。
在一个实施例中,第一内存故障信息包括针对目标设备的第一故障槽位位置和第一故障槽位位置处的内存组件的第一内存型号;第二内存故障信息包括针对目标设备的第二故障槽位位置和第二故障槽位位置处的内存组件的第二内存型号;
处理器701在根据第一内存故障信息和第二内存故障信息确定针对目标设备的目标内存故障信息时,可具体用于:
若第一故障槽位位置与第二故障槽位位置相同,则将第一内存故障信息或第二内存故障信息作为目标内存故障信息。
在一个实施例中,处理器701,还用于:
若第一故障槽位位置与第二故障槽位位置不相同,则获取目标设备的历史故障信息;
根据历史故障信息获取历史故障槽位位置;
若第一故障槽位位置与历史故障槽位位置相同,则将第一内存故障信息确定为目标故障信息;
若第二故障槽位位置与历史故障槽位位置相同,则将第二内存故障信息确定为目标内存故障信息。
在一个实施例中,处理器701在获取针对目标设备的内存数据日志信息,可具体用于:
获取目标设备发送的针对内存组件的数据日志信息集合;数据日志信息集合包含多个数据日志信息;
获取目标故障类型,并获取目标故障类型下的故障关键词;
将多个日志信息中包含故障关键词的数据日志信息,确定为内存数据日志信息。
在一个实施例中,目标设备的数量为多个,一个目标设备对应一个内存数据日志信息;处理器701在对内存数据日志信息进行解析时,可具体用于:
将每个目标设备对应的内存数据日志信息分别同步至对应的信息解析线程;一个目标设备对应一个信息解析线程;
基于每个目标设备对应的信息解析线程分别对每个目标设备对应的内存数据日志信息进行解析。
应当理解,在本申请实施例中,所称处理器701可以是中央处理单元(CentralProcessing Unit,CPU),该处理器701还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器704可以包括只读存储器和随机存取存储器,并向处理器701提供指令和数据。存储器704的一部分还可以包括非易失性随机存取存储器。
具体实现中,本申请实施例中所描述的处理器701、输入设备702、输出设备703和存储器704可执行上述所有实施例中描述的实现方式,也可执行上述装置中所描述的实现方式,在此不再赘述。
本申请实施例中提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行时,可执行上述所有实施例中所执行的步骤。
本申请实施例还提供一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被计算机设备的处理器执行时,执行上述所有实施例中的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (10)

1.一种信息处理方法,其特征在于,所述方法包括:
获取针对目标设备中的内存组件的内存数据日志信息,所述内存数据日志信息由所述目标设备采集得到;
对所述内存数据日志信息进行解析,根据第一解析结果确定所述目标设备的第一内存故障信息;
获取管理设备发送的所述目标设备中的内存组件的组件环境日志信息;所述管理设备是用于对所述目标设备进行管理的设备,所述组件环境日志信息是由所述管理设备对所述目标设备进行管理的过程中所采集得到;
对所述组件环境日志信息进行解析,根据第二解析结果确定所述目标设备的第二内存故障信息;
根据所述第一内存故障信息和所述第二内存故障信息确定针对所述目标设备的目标内存故障信息。
2.如权利要求1所述的方法,其特征在于,所述目标设备包含寄存器和传感器,所述寄存器用于对所述目标设备中的内存组件的内存数据进行中转,所述传感器用于对所述目标设备中的内存组件的组件环境进行检测,所述内存数据日志信息是由所述目标设备基于所述寄存器采集得到,所述组件环境日志信息是由所述管理设备在对所述目标设备中的所述传感器进行管理的过程中采集得到。
3.如权利要求2所述的方法,其特征在于,所述对所述内存数据日志信息进行解析,根据第一解析结果确定所述目标设备的第一内存故障信息,包括:
对所述内存数据日志信息进行解析,得到内存槽位信息和所述目标设备的第一设备型号;
根据所述内存槽位信息和所述第一设备型号匹配第一故障槽位位置以及所述第一故障槽位位置处的内存组件的第一内存型号;
将所述第一故障槽位位置和所述第一内存型号确定为所述第一内存故障信息。
4.如权利要求2所述的方法,其特征在于,所述对所述组件环境日志信息进行解析,根据第二解析结果确定所述目标设备的第二内存故障信息,包括:
对所述组件环境日志信息进行解析,得到传感器槽位信息和所述目标设备的第二设备型号;
根据所述传感器槽位信息和所述第二设备型号匹配第二故障槽位位置以及所述第二故障槽位位置处的内存组件的第二内存型号;
将所述第二故障槽位位置和所述第二内存型号确定为所述第二内存故障信息。
5.如权利要求1所述的方法,其特征在于,所述第一内存故障信息包括针对所述目标设备的第一故障槽位位置和所述第一故障槽位位置处的内存组件的第一内存型号;所述第二内存故障信息包括针对所述目标设备的第二故障槽位位置和所述第二故障槽位位置处的内存组件的第二内存型号;
所述根据所述第一内存故障信息和所述第二内存故障信息确定针对所述目标设备的目标内存故障信息,包括:
若所述第一故障槽位位置与所述第二故障槽位位置相同,则将所述第一内存故障信息或所述第二内存故障信息作为所述目标内存故障信息。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
若所述第一故障槽位位置与所述第二故障槽位位置不相同,则获取所述目标设备的历史故障信息;
根据所述历史故障信息获取历史故障槽位位置;
若所述第一故障槽位位置与所述历史故障槽位位置相同,则将所述第一内存故障信息确定为所述目标故障信息;
若所述第二故障槽位位置与所述历史故障槽位位置相同,则将所述第二内存故障信息确定为所述目标内存故障信息。
7.如权利要求1所述的方法,其特征在于,所述获取针对目标设备的内存数据日志信息,包括:
获取所述目标设备发送的针对内存组件的数据日志信息集合;所述数据日志信息集合包含多个数据日志信息;
获取目标故障类型,并获取所述目标故障类型下的故障关键词;
将所述多个日志信息中包含所述故障关键词的数据日志信息,确定为所述内存数据日志信息。
8.根据权利要求1所述的方法,其特征在于,所述目标设备的数量为多个,一个目标设备对应一个内存数据日志信息;
所述对所述内存数据日志信息进行解析,包括:
将每个目标设备对应的内存数据日志信息分别同步至对应的信息解析线程;一个目标设备对应一个信息解析线程;
基于所述每个目标设备对应的信息解析线程分别对所述每个目标设备对应的内存数据日志信息进行解析。
9.一种计算机设备,其特征在于,包括存储器,用于存储计算机程序;
处理器,调用所述存储器中的所述计算机程序,用于执行如权利要求1~8任一项所述的信息处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1~8任一项所述的信息处理方法。
CN202110920582.5A 2021-08-11 2021-08-11 一种信息处理方法、装置、计算机设备和存储介质 Pending CN115705260A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110920582.5A CN115705260A (zh) 2021-08-11 2021-08-11 一种信息处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110920582.5A CN115705260A (zh) 2021-08-11 2021-08-11 一种信息处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115705260A true CN115705260A (zh) 2023-02-17

Family

ID=85180135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110920582.5A Pending CN115705260A (zh) 2021-08-11 2021-08-11 一种信息处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115705260A (zh)

Similar Documents

Publication Publication Date Title
US11513935B2 (en) System and method for detecting anomalies by discovering sequences in log entries
CN113238913B (zh) 服务器故障智能推送方法、装置、设备及存储介质
US20160147622A1 (en) Enhanced error detection in data synchronization operations
CN108521339A (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
CN109491819A (zh) 一种诊断服务器故障的方法和系统
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN106911519B (zh) 一种数据采集监控方法及装置
CN113672456A (zh) 应用平台的模块化自监听方法、系统、终端及存储介质
CN114860487A (zh) 一种内存故障识别方法及一种内存故障隔离方法
US7484125B2 (en) Method and apparatus for providing updated processor polling information
CN113946448A (zh) 一种服务器集群的时序管理方法、装置及电子设备
CN112260902B (zh) 网络设备监控方法、装置、设备及存储介质
CN111124724B (zh) 一种分布式块存储系统的节点故障测试方法及装置
CN112463883A (zh) 基于大数据同步平台的可靠性监控方法、装置、设备
CN115705260A (zh) 一种信息处理方法、装置、计算机设备和存储介质
CN115543665A (zh) 一种内存可靠性评估方法、装置及存储介质
CN114138600A (zh) 一种固件关键信息的存储方法、装置、设备及存储介质
CN113961395A (zh) 芯片化保护装置的即插即用方法以及控制装置
CN112667460A (zh) 一种航空电子系统应用任务栈空间的监控方法
CN118656307B (zh) 基板管理控制器的故障检测方法、服务器、介质和产品
CN113220538B (zh) 一种机房动力设备运行环境监控状态传输方法
US20240160506A1 (en) Operation support apparatus, system, method, and computer-readable medium
CN115883318A (zh) 一种基于数据链路切换保障物联网网关正常运行的方法
US20150007163A1 (en) Monitoring the deployment of code onto a system
CN118550604A (zh) 配置文件管理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination