CN111048141A - 一种错误处理方法、装置、设备及计算机可读存储介质 - Google Patents

一种错误处理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111048141A
CN111048141A CN201911287925.8A CN201911287925A CN111048141A CN 111048141 A CN111048141 A CN 111048141A CN 201911287925 A CN201911287925 A CN 201911287925A CN 111048141 A CN111048141 A CN 111048141A
Authority
CN
China
Prior art keywords
error
target
data
dcpmm
operating system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911287925.8A
Other languages
English (en)
Other versions
CN111048141B (zh
Inventor
来炜国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201911287925.8A priority Critical patent/CN111048141B/zh
Publication of CN111048141A publication Critical patent/CN111048141A/zh
Application granted granted Critical
Publication of CN111048141B publication Critical patent/CN111048141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/12Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
    • G11C29/44Indication or identification of errors, e.g. for repair

Landscapes

  • Retry When Errors Occur (AREA)

Abstract

本发明公开了一种错误处理方法、装置、设备及计算机可读存储介质,该方法包括:如果发生与DCPMM器件对自身的存储空间进行巡检时发现的不可改正错误相对应的MCE错误,确定该MCE错误为目标错误;由映射表中查找需访问的数据包含所述目标错误对应数据的进程为目标进程,所述映射表中包含需要向所述存储空间写入数据的各进程的信息;判断所述目标进程是否为当前活跃的进程,如果是,则将所述目标错误交给所述目标进程进行相应的处理,否则,将所述目标错误交给所述DCPMM器件对应的操作系统进行相应的处理。从而一定程度上避免了由操作系统对MCE错误进行处理导致操作系统陷入panic,有助于操作系统的正常工作。

Description

一种错误处理方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及DCPMM器件技术领域,更具体地说,涉及一种错误处理方法、装置、设备及计算机可读存储介质。
背景技术
DCPMM(Intel DIMM插槽非易失内存,原名AEP)器件是使用DIMM内存条物理规范的持久性存储器件,其具有大容量、长寿命、可字节访问等优点;但是与DRAM内存相比,DCPMM器件的存储单元更容易出错;DCPMM器件具有地址巡检(patrol scrubbing)机制,其会定期启动对自身包含的全部存储数据进行巡检,在巡检时如果发现可改正错误,例如有一位ECC校验错误,则改正该错误,如果发现不可改正错误(UNC,uncorrectable error),例如有多个位上ECC校验错误,则通过DDRT总线向内存控制器报告,后者产生MCE错误(machinecheck exception,机器检查错误),操作系统接收到MCE错误后会导致操作系统panic,无法继续正常工作。
发明内容
本发明的目的是提供一种错误处理方法、装置、设备及计算机可读存储介质,能够一定程度上避免由操作系统对MCE错误进行处理导致操作系统陷入panic,有助于操作系统的正常工作。
为了实现上述目的,本发明提供如下技术方案:
一种错误处理方法,包括:
如果发生与DCPMM器件对自身的存储空间进行巡检时发现的不可改正错误相对应的MCE错误,则确定该MCE错误为目标错误;
由映射表中查找需访问的数据包含所述目标错误对应数据的进程为目标进程,所述映射表中包含需要向所述存储空间写入数据的各进程的信息;
判断所述目标进程是否为当前活跃的进程,如果是,则将所述目标错误交给所述目标进程进行相应的处理,否则,则将所述目标错误交给所述DCPMM器件对应的操作系统进行相应的处理。
优选的,判断所述目标进程是否为当前活跃的进程,包括:
如果所述操作系统中存在第二进程ID与第一进程ID相同,且第二进程名称与第一进程名称相同的任一进程,则确定所述目标进程为当前活跃的进程,否则,则确定所述目标进程不为当前活跃的进程;其中,所述第一进程ID及所述第一进程名称分别为所述目标进程的进程ID及进程名称,所述第二进程ID及所述第二进程名称分别为所述操作系统中存在的任一进程的进程ID及进程名称。
优选的,确定出所述目标错误之后,还包括:
将所述目标错误对应的数据拷贝到所述存储空间中能够正常工作的存储位置,以供对拷贝得到的数据进行访问。
优选的,确定所述目标进程不为当前活跃的进程之后,还包括:
将所述映射表中包含的所述目标进程对应的信息进行记录,以供用户在所述操作系统重启后基于记录的信息实现对应的异常处理操作;其中,所述信息包括进程ID、进程名称、访问地址及访问地址所属文件的文件名称。
优选的,还包括:
设置位于至少两个不同的内存控制器下的DCPMM器件包含的存储空间互为镜像空间,所述镜像空间用于同步存储数据及所述映射表,以供访问。
优选的,确定出所述目标错误之后,还包括:
为所述目标错误对应的数据的元数据增加对应的标志。
一种错误处理装置,包括:
确定模块,用于:如果发生与DCPMM器件对自身的存储空间进行巡检时发现的不可改正错误相对应的MCE错误,则确定该MCE错误为目标错误;
查找模块,用于:由映射表中查找需访问的数据包含所述目标错误对应数据的进程为目标进程,所述映射表中包含需要向所述存储空间写入数据的各进程的信息;
判断模块,用于:判断所述目标进程是否为当前活跃的进程,如果是,则将所述目标错误交给所述目标进程进行相应的处理,否则,则将所述目标错误交给所述DCPMM器件对应的操作系统进行相应的处理。
优选的,还包括:
拷贝模块,用于:确定出所述目标错误之后,将所述目标错误对应的数据拷贝到所述存储空间中能够正常工作的存储位置,以供对拷贝得到的数据进行访问。
一种错误处理设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述错误处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述错误处理方法的步骤。
本发明提供了一种错误处理方法、装置、设备及计算机可读存储介质,其中,该方法包括:如果发生与DCPMM器件对自身的存储空间进行巡检时发现的不可改正错误相对应的MCE错误,则确定该MCE错误为目标错误;由映射表中查找需访问的数据包含所述目标错误对应数据的进程为目标进程,所述映射表中包含需要向所述存储空间写入数据的各进程的信息;判断所述目标进程是否为当前活跃的进程,如果是,则将所述目标错误交给所述目标进程进行相应的处理,否则,则将所述目标错误交给所述DCPMM器件对应的操作系统进行相应的处理。本申请公开的技术方案中,如果发生与DCPMM器件对自身存储空间进行巡检发现的不可改正错误相对应的MCE错误,则由映射表中查找需访问数据包含MCE错误对应数据的进程,进而在判断出该进程为当前活跃的进程时,将MCE错误交给该进程进行处理,否则将MCE错误交给操作系统进行处理;从而在相应进程可对MCE错误进行处理时由进程处理,在相应进程无法对MCE错误进行处理器再由操作系统处理,从而一定程度上避免了由操作系统对MCE错误进行处理导致操作系统陷入panic,有助于操作系统的正常工作。本申请公开的技术方案中,如果发生与DCPMM器件对自身存储空间进行巡检发现的不可改正错误相对应的MCE错误,则由映射表中查找需访问数据包含MCE错误对应数据的进程,进而在判断出该进程为当前活跃的进程时,将MCE错误交给该进程进行处理,否则将MCE错误交给操作系统进行处理;从而在相应进程可对MCE错误进行处理时由进程处理,在相应进程无法对MCE错误进行处理时再由操作系统处理,从而一定程度上避免了由操作系统对MCE错误进行处理导致操作系统陷入panic,有助于操作系统的正常工作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种错误处理方法的流程图;
图2为本发明实施例提供的一种错误处理方法中对巡检发现的错误进行相应处理的流程图;
图3为本发明实施例提供的一种错误处理方法中操作系统的MCE handler将MCE错误提交给内存巡检MCE handler后,对MCE错误进行处理的流程图;
图4为本发明实施例提供的一种错误处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种错误处理方法的流程图,可以包括:
S11:如果发生与DCPMM器件对自身的存储空间进行巡检时发现的不可改正错误相对应的MCE错误,则确定该MCE错误为目标错误。
本发明实施例提供的一种错误处理方法的执行主体可以为对应的错误处理装置;DCPMM器件会定期对自身的存储空间进行巡检,如果在定期巡检时确定出存储空间中发生不可改正错误,则DCPMM器件会向内存控制器报告该不可改正错误(DCPMM器件产生DDRT报警信号给内存控制器),内存控制器生成SMI信号给BIOS总线的同时,又产生对应的MCE错误给操作系统(在内存控制器产生MCE错误时可确定该MCE错误为目标错误);操作系统的MCEhandler负责处理MCE错误,本实施例中为了一定程度上避免操作系统panic,在操作系统MCE handler中增加了对MCE错误的处理分支,其将该MCE错误提交给内存巡检MCE handler(可以为错误处理装置),由内存巡检MCE handler实现本申请实施例提供的一种错误处理方法。
其中,DCPMM器件对自身存储空间进行巡检,也即为DCPMM器件对自身存储空间中包含的数据进行巡检;对应的,在存储空间中发生不可改正错误,也即为在存储空间中的数据发生不可改正错误。另外,不可改正错误可能发生在DCPMM器件上的任意位置。
S12:由映射表中查找需访问的数据包含目标错误对应数据的进程为目标进程,映射表中包含需要向存储空间写入数据的各进程的信息。
本实施例中可以预先建立有映射表,映射表中包含与每个进程对应的表项,具体来说,在某个进程要向DCPMM器件上的文件写入数据时,该进程首先将需要写入数据的文件对应段DCPMM通过mmap映射到该进程的进程空间(该步骤与现有技术中对应技术方案实现原理相同,在此不再过多说明);同时,该进程在映射表中增加一条相应的表项,该表项中包含该进程对应的信息,因此可以基于该表项的信息确定出该进程在写入数据时需访问的数据,进而确定在写入数据时需访问的数据包含目标错误对应数据(目标错误对应数据即为发生目标错误的数据)的进程为目标进程,进而实现目标错误的处理。其中,在判断进程需访问的数据是否包含目标错误对应数据时,可以是基于数据所在的地址实现的,也即在映射表中记录的进程的信息可以包括进程需要访问的数据所属的地址段(访问地址),对应的,如果目标错误对应数据的地址属于进程需要访问的数据所属的地址段,则说明进程需要访问的数据包含目标错误对应数据,否则则说明进程需要访问的数据不包含目标错误对应数据,从而基于数据的地址能够快速实现相应上述判断。
S13:判断目标进程是否为当前活跃的进程,如果是,则将目标错误交给目标进程进行相应的处理,否则,则将目标错误交给DCPMM器件对应的操作系统进行相应的处理。
如果目标进程是当前活跃的进程,则说明其可以继续处理数据,因此可以将目标错误交给目标进程进行相应的处理,目标进程能够对目标错误进行处理,具体可以是目标进程重新写入发生目标错误的数据以尽可能恢复数据,或者在无法恢复数据时删除发生目标错误的数据所在的文件,从而实现对目标错误的处理;如果目标进程不为当前活跃的进程,也即目标进程为历史的进程,则说明其无法再继续处理数据,因此需要将目标错误交给操作系统,也即返回处理目标错误的控制给操作系统MCE handler,操作系统MCE handler接收到目标错误后会发生操作系统panic,无法继续正常工作;并且,会对操作系统进行重启,以在重启后能够使得操作系统能够继续正常工作。
本申请公开的技术方案中,如果发生与DCPMM器件对自身存储空间进行巡检发现的不可改正错误相对应的MCE错误,则由映射表中查找需访问数据包含MCE错误对应数据的进程,进而在判断出该进程为当前活跃的进程时,将MCE错误交给该进程进行处理,否则将MCE错误交给操作系统进行处理;从而在相应进程可对MCE错误进行处理时由进程处理,在相应进程无法对MCE错误进行处理时再由操作系统处理,从而一定程度上避免了由操作系统对MCE错误进行处理导致操作系统陷入panic,有助于操作系统的正常工作。
本发明实施例提供的一种错误处理方法,判断目标进程是否为当前活跃的进程,可以包括:
如果操作系统中存在第二进程ID与第一进程ID相同,且第二进程名称与第一进程名称相同的任一进程,则确定目标进程为当前活跃的进程,否则,则确定目标进程不为当前活跃的进程;其中,第一进程ID及第一进程名称分别为目标进程的进程ID及进程名称,第二进程ID及第二进程名称分别为操作系统中存在的任一进程的进程ID及进程名称。
需要说明的是,映射表中进程的信息可以包括进程ID及进程名称,由映射表中查找目标进程可以是查找目标进程的进程ID,然后判断操作系统中是否存在进程ID与目标进程的进程ID相同的进程,如果存在,则判断该进程ID与目标进程的进程ID相同的进程具有的进程名称是否与目标进程的进程名称相同,如果相同,则确定目标进程为当前活跃的进程,如果不存在进程ID与目标进程的进程ID相同的进程,或者进程ID与目标进程的进程ID相同的进程具有的进程名称与目标进程的进程名称不同,则确定目标进程是历史进程,也即目标进程已经无法再继续处理数据,从而通过进程ID及进程名称综合判断目标进程是否为当前活跃的进程,提高了判断准确性。
本发明实施例提供的一种错误处理方法,确定出目标错误之后,还可以包括:
将目标错误对应的数据拷贝到存储空间中能够正常工作的存储位置,以供对拷贝得到的数据进行访问。
在确定出目标错误之后,发生目标错误的数据则无法继续被读取,但是为了发生目标错误的数据可以继续被进行写操作,因此可以将发生目标错误的数据拷贝到存储空间中另一个能够正常工作的存储位置,从而使得进程能够对拷贝得到的数据进行写操作,提高了数据可用性。
本发明实施例提供的一种错误处理方法,确定目标进程不为当前活跃的进程之后,还可以包括:
将映射表中包含的目标进程对应的信息进行记录,以供用户在操作系统重启后基于记录的信息实现对应的异常处理操作;其中,信息包括进程ID、进程名称、访问地址及访问地址所属文件的文件名称。
如果确定出目标进程不为当前活跃的进程,则无法将目标错误交给目标进程进行处理,因此,需要将目标错误交给操作系统进行处理,操作系统产生操作系统panic,进而对操作系统进行重启,并且在操作系统重启后,用户可以通过记录的目标错误的信息处理目标错误,具体来说,处理目标错误可以包括删除发生目标错误的数据所在文件、格式化目标错误所属的存储分区、从备份存储中拷贝发生错误的数据到对应地址段等,因此,为了便于用户对目标错误进行处理,本实施例映射表中每个进程的信息,或者说每个进程的表项包括但不限于进程ID、进程名称、访问地址、数据长度及访问地址所属文件的文件名称五个域;其中,进程ID为表示进程的唯一性标识,进程名称为进程的名字,访问地址为进程需要访问的地址段(该地址在DCPMM器件内会被转换为存储介质的访问地址),数据长度为进程的信息占用的空间大小,文件名称为访问地址所属文件的文件名称;当然根据实际需要进行的其他设定,也均在本发明的保护范围之内。
本发明实施例提供的一种错误处理方法,还可以包括:
设置位于至少两个不同的内存控制器下的DCPMM器件包含的存储空间互为镜像空间,镜像空间用于同步存储数据及映射表,以供访问。
需要说明的是,本实施例中可以设置镜像空间,具体来说,可以选取两个及以上位于不同内存控制器下的DCPMM器件,分别在其中创建大小相同的区域(或者说存储空间),构成镜像空间;本实施例中选取不同内存控制器下的DCPMM器件实现镜像空间的设置,是为了在数据向DCPMM器件写入时,能够实现向不同DCPMM器件写数据的并行操作,进而提高写数据的速度。
另外,设置镜像空间之后,在需要向其中任一个存储空间中写入数据时,可以将需要写入的数据拷贝分别写入到每个镜像空间对应的DCPMM器件中,如果每个DCPMM器件均写入成功,则确定镜像空间写入成功;如果任意一个DCPMM器件写入失败,则确定镜像空间写入失败,此时可将写入成功的对应数据进行删除,以保证各镜像空间中的数据一致性;当需要从镜像空间中读取数据时,可以基于处理器的亲近性设置,也即基于处理器预先的设置,由任意一个镜像空间中读取对应数据,如果读取失败,则从其他的镜像空间中读取对应数据,并且在从其他的镜像空间中读取对应数据成功后需要将读取到的数据重新写入到读取对应数据失败的存储空间,以保证各存储空间的数据一致性;其中,需要读取及需要写入的数据包括存储的任意文件中的数据,也包括映射表中的数据,从而通过这种方式保证了数据可靠性。
本发明实施例提供的一种错误处理方法,确定出目标错误之后,还可以包括:
为目标错误对应的数据的元数据增加对应的标志。
如果DCPMM器件发现自身的存储空间中发生可改正错误,则可以直接改正该可改正错误,如果发生的为不可改正错误,则可以为发生不可改正错误的数据的元数据增加对应的标志,从而方便其他进程或者用户等获知目标错误对应的数据的情况;其中,标志可以为毒性标志(poison),当然也可以根据实际需要进行其他设定,均在本发明的保护范围之内。
如图2所示,为对巡检发现的错误进行处理的流程图,具体可以包括:
S21:DCPMM器件定期进行自身包含的全部存储空间的巡检;
S22:DCPMM器件在巡检过程中如果发现可改正错误,则改正该错误;如果发现不可改正错误,则会将发生不可改正错误的数据拷贝到另外一个存储位置,在发生不可改正错误的数据的元数据部分增加有毒标志,并产生DDRT报警信号给内存控制器;
S23:内存控制器生成SMI信号给BIOS,又产生MCE信号给操作系统;
S24:操作系统的MCE handler负责处理MCE错误,操作系统的MCE handler中增加了对MCE错误的处理分支,将MCE错误提交给内存巡检MCE handler;其中,MCE错误即为不可改正错误。
对应的,操作系统的MCE handler将MCE错误提交给内存巡检MCE handler后,对该MCE错误的处理过程如图3所示,具体可以包括:
S31:内存巡检MCE handler收到MCE错误后,查询存储于镜像空间中的映射表,找到MCE错误的错误地址对应的表项;
S32:在操作系统中查找表项包含的进程ID,如果找到且进程名称相同,则说明该错误地址为当前活跃进程产生,将MCE错误提交给该进程处理;
S33:如果不能找到表项包含的进程ID或者找到表项中包含的进程ID但是进程名称不同,则说明该表项是历史进程产生,内存巡检MCE handler记录该表项,并返回控制给操作系统MCE handler;
S34:MCE handler产生系统panic,当操作系统重启后,用户可以根据记录处理该表项对应的错误地址,如可以删除对应文件、格式化对应分区、从备份存储中拷贝错误地址对应数据到该错误地址等。
本发明实施例还提供了一种错误处理装置,如图4所示,可以包括:
确定模块11,用于:如果发生与DCPMM器件对自身的存储空间进行巡检时发现的不可改正错误相对应的MCE错误,则确定该MCE错误为目标错误;
查找模块12,用于:由映射表中查找需访问的数据包含目标错误对应数据的进程为目标进程,映射表中包含需要向存储空间写入数据的各进程的信息;
判断模块13,用于:判断目标进程是否为当前活跃的进程,如果是,则将目标错误交给目标进程进行相应的处理,否则,则将目标错误交给DCPMM器件对应的操作系统进行相应的处理。
本发明实施例提供的一种错误处理装置,判断模块可以包括:
判断单元,用于:如果操作系统中存在第二进程ID与第一进程ID相同,且第二进程名称与第一进程名称相同的任一进程,则确定目标进程为当前活跃的进程,否则,则确定目标进程不为当前活跃的进程;其中,第一进程ID及第一进程名称分别为目标进程的进程ID及进程名称,第二进程ID及第二进程名称分别为操作系统中存在的任一进程的进程ID及进程名称。
本发明实施例提供的一种错误处理装置,还可以包括:
拷贝模块,用于:确定出目标错误之后,将目标错误对应的数据拷贝到存储空间中能够正常工作的存储位置,以供对拷贝得到的数据进行访问。
本发明实施例提供的一种错误处理装置,还可以包括:
记录模块,用于:确定目标进程不为当前活跃的进程之后,将映射表中包含的目标进程对应的信息进行记录,以供用户在操作系统重启后基于记录的信息实现对应的异常处理操作;其中,信息包括进程ID、进程名称、访问地址及访问地址所属文件的文件名称。
本发明实施例提供的一种错误处理装置,还可以包括:
设置模块,用于:设置位于至少两个不同的内存控制器下的DCPMM器件包含的存储空间互为镜像空间,镜像空间用于同步存储数据及映射表,以供访问。
本发明实施例提供的一种错误处理装置,还可以包括:
增加模块,用于:确定出目标错误之后,为目标错误对应的数据的元数据增加对应的标志。
本发明实施例还提供了一种错误处理设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项错误处理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上任一项错误处理方法的步骤。
需要说明的是,本发明实施例提供的一种错误处理装置、设备及计算机可读存储介质中相关部分的说明请参见本发明实施例提供的一种错误处理方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种错误处理方法,其特征在于,包括:
如果发生与DCPMM器件对自身的存储空间进行巡检时发现的不可改正错误相对应的MCE错误,则确定该MCE错误为目标错误;
由映射表中查找需访问的数据包含所述目标错误对应数据的进程为目标进程,所述映射表中包含需要向所述存储空间写入数据的各进程的信息;
判断所述目标进程是否为当前活跃的进程,如果是,则将所述目标错误交给所述目标进程进行相应的处理,否则,则将所述目标错误交给所述DCPMM器件对应的操作系统进行相应的处理。
2.根据权利要求1所述的方法,其特征在于,确定出所述目标错误之后,还包括:
将所述目标错误对应的数据拷贝到所述存储空间中能够正常工作的存储位置,以供对拷贝得到的数据进行访问。
3.根据权利要求1所述的方法,其特征在于,确定所述目标进程不为当前活跃的进程之后,还包括:
将所述映射表中包含的所述目标进程对应的信息进行记录,以供用户在所述操作系统重启后基于记录的信息实现对应的异常处理操作;其中,所述信息包括进程ID、进程名称、访问地址及访问地址所属文件的文件名称。
4.根据权利要求3所述的方法,其特征在于,判断所述目标进程是否为当前活跃的进程,包括:
如果所述操作系统中存在第二进程ID与第一进程ID相同,且第二进程名称与第一进程名称相同的任一进程,则确定所述目标进程为当前活跃的进程,否则,则确定所述目标进程不为当前活跃的进程;其中,所述第一进程ID及所述第一进程名称分别为所述目标进程的进程ID及进程名称,所述第二进程ID及所述第二进程名称分别为所述操作系统中存在的任一进程的进程ID及进程名称。
5.根据权利要求4所述的方法,其特征在于,还包括:
设置位于至少两个不同的内存控制器下的DCPMM器件包含的存储空间互为镜像空间,所述镜像空间用于同步存储数据及所述映射表,以供访问。
6.根据权利要求5所述的方法,其特征在于,确定出所述目标错误之后,还包括:
为所述目标错误对应的数据的元数据增加对应的标志。
7.一种错误处理装置,其特征在于,包括:
确定模块,用于:如果发生与DCPMM器件对自身的存储空间进行巡检时发现的不可改正错误相对应的MCE错误,则确定该MCE错误为目标错误;
查找模块,用于:由映射表中查找需访问的数据包含所述目标错误对应数据的进程为目标进程,所述映射表中包含需要向所述存储空间写入数据的各进程的信息;
判断模块,用于:判断所述目标进程是否为当前活跃的进程,如果是,则将所述目标错误交给所述目标进程进行相应的处理,否则,则将所述目标错误交给所述DCPMM器件对应的操作系统进行相应的处理。
8.根据权利要求7所述的装置,其特征在于,还包括:
拷贝模块,用于:确定出所述目标错误之后,将所述目标错误对应的数据拷贝到所述存储空间中能够正常工作的存储位置,以供对拷贝得到的数据进行访问。
9.一种错误处理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述错误处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述错误处理方法的步骤。
CN201911287925.8A 2019-12-15 2019-12-15 一种错误处理方法、装置、设备及计算机可读存储介质 Active CN111048141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911287925.8A CN111048141B (zh) 2019-12-15 2019-12-15 一种错误处理方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911287925.8A CN111048141B (zh) 2019-12-15 2019-12-15 一种错误处理方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111048141A true CN111048141A (zh) 2020-04-21
CN111048141B CN111048141B (zh) 2021-11-09

Family

ID=70236482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911287925.8A Active CN111048141B (zh) 2019-12-15 2019-12-15 一种错误处理方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111048141B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030074601A1 (en) * 2001-09-28 2003-04-17 Len Schultz Method of correcting a machine check error
CN102571189A (zh) * 2010-12-07 2012-07-11 中兴通讯股份有限公司 回程链路子帧配置切换的数据处理方法和装置
CN104115125A (zh) * 2011-12-29 2014-10-22 英特尔公司 安全的错误处理
CN107562565A (zh) * 2017-08-03 2018-01-09 郑州云海信息技术有限公司 一种验证内存Patrol Scurb功能的方法
US20190026239A1 (en) * 2017-07-19 2019-01-24 Dell Products, Lp System and Method to Correlate Corrected Machine Check Error Storm Events to Specific Machine Check Banks
CN109343988A (zh) * 2018-09-13 2019-02-15 郑州云海信息技术有限公司 一种测试不可修正错误降级成可修正错误功能的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030074601A1 (en) * 2001-09-28 2003-04-17 Len Schultz Method of correcting a machine check error
CN102571189A (zh) * 2010-12-07 2012-07-11 中兴通讯股份有限公司 回程链路子帧配置切换的数据处理方法和装置
CN104115125A (zh) * 2011-12-29 2014-10-22 英特尔公司 安全的错误处理
US20190026239A1 (en) * 2017-07-19 2019-01-24 Dell Products, Lp System and Method to Correlate Corrected Machine Check Error Storm Events to Specific Machine Check Banks
CN107562565A (zh) * 2017-08-03 2018-01-09 郑州云海信息技术有限公司 一种验证内存Patrol Scurb功能的方法
CN109343988A (zh) * 2018-09-13 2019-02-15 郑州云海信息技术有限公司 一种测试不可修正错误降级成可修正错误功能的方法

Also Published As

Publication number Publication date
CN111048141B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
US9916116B2 (en) Memory access and detecting memory failures using dynamically replicated memory based on a replication policy
DE102017124079B4 (de) Speichervorrichtung zum Verarbeiten von beschädigten Metadaten und Verfahren zum Betreiben derselben
US8255742B2 (en) Dynamically replicated memory
US8762661B2 (en) System and method of managing metadata
US9009428B2 (en) Data store page recovery
US20150378642A1 (en) File system back-up for multiple storage medium device
US11347593B2 (en) Capacitor energy management for unexpected power loss in datacenter SSD devices
US20130054936A1 (en) Remapping inoperable memory blocks using pointers
US8516298B2 (en) Data protection method for damaged memory cells
BR112014005623B1 (pt) Método de gravar escritas pendentes em um conjunto de armazenamento e meio de armazenamento legível por computador
TW201535382A (zh) 動態隨機存取記憶體(dram)列備用技術
US9092357B2 (en) Remapping of inoperable memory blocks
US10289321B1 (en) Bad block table recovery in a solid state drives
US20170277451A1 (en) Method to limit impact of partial media failure of disk drive and detect/report the loss of data for objects due to partial failure of media
TW202328921A (zh) 使用記憶體內日誌於非揮發性記憶裝置中的元資料管理
CN113031876A (zh) 一种数据处理方法、装置、设备及可读存储介质
CN111048141B (zh) 一种错误处理方法、装置、设备及计算机可读存储介质
US20210042050A1 (en) Method and apparatus for rebuilding memory mapping tables
KR20230161375A (ko) 확장 가능한 메모리 오류 처리를 위한 시스템들 및 방법들
WO2018076954A1 (zh) 一种数据存储方法、装置及系统
JP2012252557A (ja) メモリコントローラ
CN114840364A (zh) 对内存中的存储数据进行备份的方法、装置及电子设备
WO2021082011A1 (zh) 应用于磁盘阵列系统的数据重构方法、装置及计算设备
CN110351386B (zh) 一种不同副本间的增量同步方法及装置
EP4123470A1 (en) Data access method and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant