CN116089147A - 内存数据处理方法、系统、存储介质及计算机终端 - Google Patents

内存数据处理方法、系统、存储介质及计算机终端 Download PDF

Info

Publication number
CN116089147A
CN116089147A CN202310114945.5A CN202310114945A CN116089147A CN 116089147 A CN116089147 A CN 116089147A CN 202310114945 A CN202310114945 A CN 202310114945A CN 116089147 A CN116089147 A CN 116089147A
Authority
CN
China
Prior art keywords
memory
error
uncorrectable
errors
occur
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310114945.5A
Other languages
English (en)
Inventor
谢宁
韩琳琳
刘天鹏
李琛琛
邓德杨
葛士建
彭亮
刘显
张宇
王剑
郁雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202310114945.5A priority Critical patent/CN116089147A/zh
Publication of CN116089147A publication Critical patent/CN116089147A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本说明书公开了一种内存数据处理方法、系统、存储介质及计算机终端。该方法包括:获取计算机系统的内存中发生的可纠正错误的错误信息;根据错误信息,预测内存中是否会发生不可纠正错误;在预测到内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将目标地址对应的内存范围转换为计算机系统的内存页,目标地址的内存范围与内存页具有映射关系;将内存页进行隔离,以隔离将会发生不可纠正错误的内存范围。通过本公开的技术方案,根据计算机系统发生的可纠正错误的错误信息,预先对不可纠正错误进行准确预测,并在预测到之后立刻进行隔离,从而避免了不可纠正错误发生后会导致计算机系统工作中断,保证了计算机系统可以正常工作。

Description

内存数据处理方法、系统、存储介质及计算机终端
技术领域
本公开涉及内存管理技术领域,具体涉及一种内存数据处理方法、系统、存储介质及计算机终端。
背景技术
内存是现代计算机系统中关键的组件之一,可以用来快速的数据存储和恢复。当数据在频繁的存储和恢复的过程中,非预期的错误就会出现。为了避免此种错误,ECC(Error Correcting Code,错误检查和纠正)常被用来探测存储过程中的错误。
内存中会出现可纠正错误和不可纠正错误,一旦不可纠正错误发生,通常会引起计算机系统的故障,对业务造成损失。目前的技术只能对可纠正错误进行修复,对与不可纠正错误,没有较好的处理方式。
这样就导致内存中的不可纠正错误对计算机系统的工作产生较大的影响。对此,需要提供更优的技术方案。
发明内容
有鉴于此,本公开实施例提供了一种内存数据处理方法、系统、存储介质及计算机终端,以解决相关技术中对内存中的不可纠正错误,难以进行有效的预防和处理的问题。
根据第一方面,本公开实施例提供了一种内存数据处理方法,所述方法包括:获取计算机系统的内存中发生的可纠正错误的错误信息;根据所述错误信息,预测所述内存中是否会发生不可纠正错误;在预测到所述内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将所述目标地址对应的内存范围转换为所述计算机系统的内存页,其中,所述目标地址的内存范围与所述内存页具有映射关系;将所述内存页进行隔离,以隔离将会发生的不可纠正错误。
通过可纠正错误的错误信息预测是否会发生不可纠正错误,并在预测到会发生不可纠正错误的情况下,将目标地址的对应的内存范围转换为内存页进行隔离。从而实现预先对不可纠正错误进行准确预测,并对不可纠正错误进行处理。保证了计算机系统可以正常工作,避免了不可纠正错误发生后会导致计算机系统工作中断,影响系统正常运行的问题。
根据第二方面,本公开实施例提供了一种内存数据处理系统,包括:内存故障预测模块,错误检测和纠正服务器,内存页隔离模块;所述错误检测和纠正服务器,与计算机系统相连,用于获取计算机系统的内存中发生的可纠正错误的错误信息,并进行存储;所述内存故障预测模块,与所述错误检测和纠正服务器相连,用于根据所述错误信息,预测所述内存中是否会发生不可纠正错误;所述计算机系统,所述计算机系统,在预测到所述内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将所述目标地址对应的内存范围转换为所述计算机系统的内存页,其中,所述目标地址的内存范围与所述内存页具有映射关系;所述内存页隔离模块与所述计算机系统相连,用于将所述内存页进行隔离,以隔离所述目标地址将会发生的不可纠正错误。
内存故障预测模块通过可纠正错误的错误信息预测是否会发生不可纠正错误,内存页隔离模块在预测到会发生不可纠正错误的情况下,将目标地址的对应的内存范围转换为内存页进行隔离。从而实现预先对不可纠正错误进行准确预测,并对不可纠正错误进行处理。保证了计算机系统可以正常工作,避免了不可纠正错误发生后会导致计算机系统工作中断,影响系统正常运行的问题。
根据第三方面,本公开实施例提供了一种计算机可读存储介质,所述存储介质用于存储程序,其中,所述程序执行上述第一方面中任意一个实施方式所述的内存数据处理方法。
根据第四方面,本公开实施例提供了一种计算机终端,包括至少一个处理器和存储器,所述存储器用于存储至少一个程序,其中,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述第一方面中任意一个实施方式所述的内存数据处理方法。
附图说明
通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:
图1示出了本公开实施例1的内存数据处理方法的流程图;
图2示出了本公开实施例1的内存不可纠正错误UCE处理方法的流程图;
图3示出了本公开实施例2的内存数据处理方法的流程图;
图4示出了本公开实施例3的内存数据处理方法的流程图;
图5示出了本公开实施例4的内存数据处理方法的流程图;
图6示出了本公开实施例5的内存数据处理方法的流程图;
图7示出了本公开实施例6的内存数据处理系统的示意图;
图8示出了本公开实施例7的计算机终端的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
相关技术中在计算机系统的内存中,由于快速和频繁地进行数据存储和恢复,内存中会发生不可预期的错误。包括可纠正错误,Correctable Error,简称CE,以及不可纠正错误,Uncorrectable Error,简称UE或UCE。
对于可纠正错误,可以通过纠正算法进行纠正,但是对于不可纠正错误,由于不可纠正,一旦发生,就会导致系统故障,运行中断等。对系统的正常运行产生较大的影响。
在对可纠正错误和不可纠正错误的研究中发现,可纠正错误与不可纠正错误存在一定的关系,例如,不可纠正错误可以由可纠正错误发展而来。因此,相关技术中提出利用可纠正错误的发生频率来预测是否会发生不可纠正错误。
但是这种方法,对于可纠正错误发展成为不可纠正错误的内在原理并没有进行分析和应用,只是从次数越多,频率越大的角度进行预测,其预测的准确性很差,常常存在发生了很多次可纠正错误,但是不会发生不可纠正错误。或者发生过一次可纠正错误,就直接引发了不可纠正错误。
由此可以看出,需要从可纠正错误发展为不可纠正错误的产生原理入手,对不可纠正错误进行准确预测,来提高预测的准确性。
另外,在相关技术中,预测的不可纠正错误,会在不同的时间内发生,有的发生的时间很长,有的发生的时间很短。而不可纠正错误一旦发生就会导致系统故障,引发工作中断。这就需要对不可纠正错误的预测以及处理,都需要尽快完成。
基于此,本申请提供了一种内存数据处理方法,通过可纠正错误的错误信息预测是否会发生不可纠正错误,其错误信息包括了发生可纠正错误的存储单元的位图,以及为图中的错误类型和结构特征,作为可纠正错误的数据特征,并以此预测是否会发生不可纠正错误。
从而实现预先对不可纠正错误进行准确预测,并对不可纠正错误进行处理。保证了计算机系统可以正常工作,避免了不可纠正错误发生后会导致计算机系统工作中断,影响系统正常运行的问题。
上述方法中,故障信息的获取,不可纠正错误的预测,以及在预测到会发生不可纠正错误的情况下,将目标地址的对应的内存范围转换为内存页进行隔离的流程都是紧密衔接,自动触发,以保证尽快的实现不可纠正故障的预测和处理,尽最大程度上保证计算机系统的正常运行。
上述根据可纠正错误的数据特征对不可纠正错误进行准确预测,是因为研究发现,可纠正错误在发展到不可纠正错误的原因,是因为其内部的数据结构,在本次的检测下属于可纠正错误,在纠正算法的迭代纠正过程中,本次检测的可纠正错误,会由于数据结构,或者不同的数据错误,更容易发展为不可纠正错误。
因此,采用可纠正错误的数据特征对不可纠正错误进行准确预测,从不可纠正错误的产生原理,来对不可纠正错误进行准确预测,极大的提高了不可纠正错误的预测准确性,更加方便后续对不可纠正错误的处理,从而很大程度上提高了计算机系统的工作稳定性,以及对不可纠正错误的预防的准确性。
本说明书提供的内存数据处理方法,可以应用于计算机系统中,或者计算机系统中具有数据运算和数据通信功能的处理模块。本说明书提供的内存数据处理方法,可以应用于计算机系统搭载的电子设备中。该电子设备可以包括笔记本、台式电脑、智能手机、智能可穿戴设备(虚拟现实眼镜、智能手表等)、平板电脑等。当然,本说明书提供的内存数据处理方法,也可以应用于运行在上述的电子设备中的应用程序内。例如,该内存数据处理方法可以应用于具备即时通信功能的浏览器中,也可以应用于即时通信软件内。
实施例1
图1示出了本公开实施例1的内存数据处理方法的流程图,如图1所示,根据第一方面,本公开实施例提供了一种内存数据处理方法,方法包括以下步骤:
步骤S101,获取计算机系统的内存中发生的可纠正错误的错误信息;
步骤S102,根据错误信息,预测内存中是否会发生不可纠正错误;
步骤S103,在预测到内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将目标地址对应的内存范围转换为计算机系统的内存页,其中,目标地址的内存范围与内存页具有映射关系;
步骤S104,将内存页进行隔离,以隔离将会发生不可纠正错误的内存范围。
上述步骤通过可纠正错误的错误信息预测是否会发生不可纠正错误,并在预测到会发生不可纠正错误的情况下,将目标地址的对应的内存范围转换为内存页进行隔离。从而实现预先对不可纠正错误进行准确预测,并对不可纠正错误进行处理。保证了计算机系统可以正常工作,避免了不可纠正错误发生后会导致计算机系统工作中断,影响系统正常运行的问题。
上述计算机系统可以用来根据外部请求提供各种服务,其内部可以运行不同的服务程序,来响应外部请求。上述计算机系统中至少包括内存,例如,DRAM内存,可以用来快速的数据存储和恢复。
也是因为内存需要在计算机系统工作时,频繁的进行数据存储和恢复。导致内存中容易出现可纠正错误和不可纠正错误。
对于可纠正错误,由于可以通过纠正算法的处理,从而恢复正常。通常将发生的可纠正错误可以进行存储,在一定条件下,再统一进行纠错。例如,周期处理,或者某个流程执行完再处理,其可纠正错误对处理时限的要求并不高。
而不可纠正错误,一旦发生,由于无法进行纠错,就会影响到内存正常的数据存储和和恢复,进一步就会影响计算机系统的正常工作,严重时会导致计算机系统发生严重故障,工作中断。因此,不可纠正错误需要尽量避免,并且对处理时限要求较高,发生前的处理,肯定比发生后的处理更高效。
上述错误信息可以包括发生可纠正错误的内存范围或存储单元的地址,以及该内存范围或存储单元中存储的错误数据,根据错误数据的一些特征,例如错误类型,或者数据结构,可以确定出其是否属于完全可纠正或者部分可纠正,对于部分可纠正的错误数据,是否会因为纠正算法的迭代纠正,产生不可纠正错误。
针对相关技术中,通过可纠正错误的频率来预测不可纠正错误,是非常不准确的。本实施例提出通过可纠正错误的数据特征,包括上述错误类型和/或数据结构,来预测是否可能会发生不可纠正错误。剖析了可纠正错误发展成不可纠正错误的底层原理,其用来预测不可纠正错误,具有更高的准确性。
具体的,在预测不可纠正错误时,先确定发生的可纠正错误的数据特征,然后将该数据特征,与预先设定的,会发展成不可纠正错误的故障标准特征相比对,在比对上的情况下,预测会发生不可纠正错误。否则可以预测不会发生不纠正错误。进而准确高效的预测不可纠正错误。
在预测到内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将目标地址对应的内存范围转换为计算机系统的内存页,其中,目标地址的内存范围与内存页具有映射关系。
需要说明的是,根据上述预测机理,被预测为将会发展为不可纠正错误的可纠正错误存储单元的地址,或者该存储单元所在存储范围的地址,都可以作为目标地址。
本申请中,为了提高对不可纠正错误的处理准确性,保证系统安全稳定运行,可以选择会发生不可纠正错误的存储单元所在的存储范围的地址,作为目标地址。这样可以对不可纠正错误具有更大的覆盖性。对于内存范围其他的数据,可以采取备份的方式存储在其他内存范围,来保证系统对内存中数据的正常存储和恢复。
上述将内存页进行隔离,可以采用page offline内存页离线隔离的技术来执行,将内存页page隔离后,也就将内存范围的不可纠正错误隔离,即便在隔离环境中发生了不可纠正错误,也不会影响到系统的正常运行。
本实施例还提供了一种可选的实施方式,在内存为DRAM的情况下,根据研究和数据记录发现,可纠正错误CE和不可纠正错误UCE有一定的关系,可纠正错误的发生频率常被用来和不可纠正错误进行关联。
本实施方式基于数据中心的内存故障的数据进行了分析,对内存的微架构进行了分析,发现内存中可纠正错误的空间分布和不可纠正错误有较强的相关性。利用这些微架构的特征,内存的故障预测模型有了大幅度的提升。根据不可纠正错误的预测结果,接近40%的UCE发生在预测后1分钟以内;因此需要对可能导致内存不可纠正错误的可纠正错误进行及时处理,从而避免系统发生不可纠正错误,并因为内存不可纠正错误而宕机。
而当前针对不可纠正错误的处理,大多是在离线系统进行预测,获取结果缺乏时效性;根据数据表明,大量不可纠正错误发生在预测后的1分钟内,无法及时进行处理去避免不可纠正错误的产生,系统同样发生故障。
图2示出了本公开实施例1的内存不可纠正错误UCE处理方法的流程图,如图2所示,本实施方式,当系统发生可纠正错误时,部署在OS(offline system,离线系统)侧的MFP(Memory Failure Prediction,内存故障预测)根据EDAC(Error Detection AndCorrection,错误检测和纠正服务器)中的错误信息进行UCE的预测。
MFP预测出可能会出现UCE的内存行row地址。
将得到的内存行row转化为对应的内存页page,并进行Page Offline内存页离线隔离操作。
本实施方式,部署内存故障预测机制,以及处理机制,从而最大化提高内存故障预测的效果。在OS侧部署MFP,以保证预测的时效性。对于MFP预测的结果,在OS侧立马执行Page Offline,以保证不可纠正错误处理的时效性。
实施例2
图3示出了本公开实施例2的内存数据处理方法的流程图,如图3所示,本实施例是对实施例1的进一步限定,在实施例1的步骤S101,获取计算机系统的内存中发生的可纠正错误的错误信息包括:
步骤S301,监测错误信息是否发生更新,以监测计算机系统是否发生可纠正错误;
步骤S302,在监测到错误信息发生更新的情况下,获取计算机系统的内存中发生的可纠正错误的错误信息,并执行根据错误信息,预测可纠正错误是否会发生不可纠正错误的步骤。
计算机系统一旦发生可纠正错误,就会更新错误信息。通过对错误信息更新的监测,能够在发生可纠正错误的第一时间,进行不可纠正错误的预测,并在后续预测到不可纠正错误的情况下,对不可纠正错误进行隔离处理。保证不可纠正错误预测的时效性。
计算机系统发生可纠正错误的情况下,会将发生的可纠正错误的信息发送给服务器进行存储,在服务器中存储的错误信息就会发生更新。监测到错误信息发生更新,就可以认为计算机系统发生了可纠正错误。
在另一些实施例中,监测计算机系统是否发生可纠正错误的方式还有很多,比如计算机系统可以在发生可纠正错误的情况下,自动将可纠正错误的错误信息发送给服务器,或上述步骤的执行主体中。
由于预测到的不可纠正错误,通常都在可纠正错误发生之后,较短时间,例如40s~90s,通常1min之内发生不可纠正错误的情况占40%。为了尽早的预测到不可纠正错并进行处理,来尽量保证系统工作的稳定性。
在本实施例中,一旦监测到错误信息发生更新,就立即将控制内存故障预测模块,从存储错误信息的设备中,获取计算机系统的内存中发生的可纠正错误的错误信息,在获取完之后,即刻自动触发并执行根据错误信息,预测可纠正错误是否会发生不可纠正错误的步骤。
从而保证在可纠正错误发生后,尽快的获取其错误信息,并立即根据获取的错误信息进行不可纠正故障的预测,保证了不可纠正故障预测的时效性。
上述步骤的执行主体的数据处理的速度比较高,通常可以控制在微妙us或纳秒ns级别。由此基本可以处理所有的不可纠正故障。极大的提高了不可纠正故障的预测准确率和处理效率,从而极大地保证了系统稳定性。
实施例3
图4示出了本公开实施例3的内存数据处理方法的流程图,如图4所示,本实施例是对实施例2的进一步限定,在实施例2的步骤S102基础上,根据错误信息,预测内存中是否会发生不可纠正错误包括:
步骤S401,根据错误信息中发生可纠正错误的存储单元的地址,以及内存范围的故障判定规则,查找发生故障的内存范围,其中,内存包括多个内存范围,内存范围包括多个存储单元;
步骤S402,根据发生可纠正错误的存储单元的数据特征,检测存储单元是否为风险单元;
步骤S403,根据风险单元的参数特征,确定内存是否会发生不可纠正错误。
通过先检测内存中故障的内存范围,在故障的内存范围中,获取发生可纠正错误的存储单元的数据特征,检测存储单元是否为风险单元,在风险单元的参数特征满足一定要求时,认定会发生不可纠正错误。根据可纠正错误的数据特征,来预测不可纠正错误,提高不可纠正错误的预测准确率。
考虑到内存中存储的数据量较大,发生的可纠正错误也是比较多,其具体对应在内存中,如果要一一寻找和分析,就会导致浪费的时间过多。
为了提高效率,可以通过内存的组成单位,也即是上述内存范围作为基本单元,进行不可纠正错误的分析。在保证效率的同时也能一定程度上保证准确率。
需要说明的是,内存单元为内存中最小的存储单位,例如cell单元。内存范围可以为内存单元的上层单元,可以明确的是,内存范围包括多个内存单元。
根据错误信息中发生可纠正错误的存储单元的地址,以及内存范围的故障判定规则,查找发生故障的内存范围。上述故障判定规则,可以通过可纠正故障的存储单元的密度,密度越高,理论上转化为不可纠正错误的概率越高。
需要说明的是,密度的判定也可以从多个角度去判定,例如,某个具体范围内的发生可纠正故障的存储单元的密度,或者发生可纠正故障的存储单元在本内存范围内的平均密度,或者发生可纠正故障的地址范围内发生可纠正故障的存储单元的密度等。
本实施例可以选取在发生可纠正故障的地址范围内,发生可纠正故障的存储单元的密度。该地址范围可以从内存范围内,最边缘的存储单元所形成的矩形,或者线段。来客观准确的描述发生可纠正错误的密度。
作为一种可选的实施方式,内存范围包括:内存行,内存列,内存块;在内存范围为内存行的情况下,内存行的故障判定规则为:内存行中发生可纠正错误的位置区域长度不超过长度阈值,且发生可纠正错误的存储单元的数量达到第二数量阈值的情况下,确定内存行故障。
在内存范围为内存行的情况下,根据发生可纠正错误的位置区域长度和存储单元数量,来表征内存行中存储单元的密度,进而判定该内存行是否故障,以预测是否可能导致不可纠正错误的风险。
本实施例的内存,通常包括内存行row,内存列column,以及内存块bank。上述内存范围可以为上述内存行row,内存行的故障判定规则为:内存行中发生可纠正错误的位置区域长度不超过长度阈值,且发生可纠正错误的存储单元的数量达到第二数量阈值的情况下,确定内存行故障。
也即是在该发生可纠正错误的位置区域中,发生可纠正错误的存储单元的密度,保证不超过第二数量阈值/长度阈值。通过两个数值的限定,实现对密度的限定。
作为一种可选的实施方式,根据风险单元的参数特征,确定内存是否会发生不可纠正错误包括:统计内存范围中风险单元的数量;根据内存范围的风险单元的数量是否达到第一数量阈值,确定内存范围是否会发生不可纠正错误;在确定内存范围会发生不可纠正错误的情况下,将内存范围的地址作为不可纠正错误的目标地址,其中,内存范围与内存页具有映射关系。
根据风险单元的数量,是否达到第一数量阈值,来预测内存范围是否会发生不可纠正错误。若预测到该内存范围会发生不可纠正错误的情况下,将该内存范围的地址,作为目标地址进行输出。进一步提高不可纠正错误的准确率。
上述风险单元也即是发生过可纠正故障的存储单元,被认定为会发生不可纠正故障的情况下,将该存储单元作为风险单元,每个风险单元都可能会引起不可纠正的发生。可以将所有风险单元对应的内存页都隔离起来,杜绝不可纠正错误的发生。
但是,单个的风险单元无法进行隔离,只能通过其风险单元所在的内存范围对应的内存页进行隔离。一方面,内存范围包括较多的存储单元,对风险单元数量的容许度越低,就会导致隔离的内存也越多,隔离的压力越大。但是对风险单元数量的容许度越高,就会导致不可纠正风险发生的概率越大。
基于此,可以综合考虑设定一个第一数量阈值,作为是否判定内存范围发生不可纠正错误的标准。需要说明的是,在另一些实施例中,也可以随时根据需求对第一数量阈值进行调整,以满足随时变化的使用需求。
在确定内存范围会发生不可纠正错误的情况下,将内存范围的地址作为不可纠正错误的目标地址,其中,内存范围与内存页具有映射关系。需要说明的是,内存中被认定为会发生不可纠正错误的内存范围可以为多个。
多个被认定为会发生不可纠正错误的内存范围可以存储在一张表格list中,通过该表格就可以确定出被认定为会发生不可纠正错误的内存范围,以及对应的目标地址,甚至对应的内存页等。
实施例4
图5示出了本公开实施例4的内存数据处理方法的流程图,如图5所示,本实施例是对实施例3的进一步限定,在实施例3的步骤S402的基础上,根据发生可纠正错误的存储单元的数据特征,检测存储单元是否为风险单元包括:
步骤S501,读取发生可纠正错误的存储单元的位图;
步骤S502,将位图中错误位的错误类型和结构特征,作为存储单元的数据特征,其中,错误位为位图中发生错误的比特位;
步骤S503,将数据特征与预设的故障标准特征进行对比,确定存储单元是否为风险单元。
根据可纠正错误的存储单元的位图中错误类型和结构特征,作为数据特征与故障标准特征进行比对,来确定是否属于不可纠正错误,进而确定该存储单元是否为风险单元,以便根据风险单元的参数特征预测是否会发生不可纠正错误。
本实施例剖析了可纠正错误发展成不可纠正错误的底层原理,其用来预测不可纠正错误,具有更高的准确性。具体的,根据存储单元的位图中的错误位的错误类型和结构特征,构造数据特征,作为判定是否风险单元的依据。
上述错误类型也即是该错误位发生错误的类型,上述结构特征可以是位图中的错误位的位置和分布。根据其错误类型和结构特征,可以分析出纠正算法迭代纠正下,是否会发生不可纠正错误。
从而在根据发生可纠正错误的存储单元的数据特征,检测存储单元是否为风险单元时,先读取发生可纠正错误的存储单元的位图,将位图中发生错误的比特位,也即是错误位的错误类型和结构特征,作为存储单元的数据特征,与预设的故障标准特征进行对比,确定存储单元是否为风险单元。
将数据特征与预设的故障标准特征进行对比,确定存储单元是否为风险单元包括:将数据特征与第一故障标准特征,以及第二故障标准特征进行对比,其中,第一故障标准特征为只能被部分修复的故障的标准特征,第二故障标准特征为能够被完全修复的故障的标准特征;在数据特征至少符合一个第一故障标准特征,且不符合任意一个第二故障标准特征的情况下,确定数据特征对应的存储单元为风险单元。
从可纠正错误的数据特征的角度,通过预设的故障标准特征进行对比,预测是否会发生不可纠正错误。从而根据可纠正错误的数据特征与不可纠正错误的关系,来预测不可纠正错误,提高了不可纠正错误预测的准确性。
上述第一故障标准特征为只能被部分修复的故障的标准特征,也即是在该数据特征中,存在有的错误位无法被纠正算法进行纠正,这种就很有可能随着时间的推移,以及纠正算法的迭代,将一个不可纠正的错误位,逐渐发展为更多的错误位,进而发展成不可纠正错误。
上述第二故障标准特征为能够被完全修复的故障的标准特征,也即是在该数据特征中,所有的错误位都可以被纠正算法进行纠正,这种发展为不可纠正错误的可能性较小,即便随着时间的推移,以及纠正算法的迭代,短时间内都不会发展成不可纠正错误。
因此,在命中至少一个第一故障标准特征的情况下,说明其不可纠正错误的风险较大,而且没有命中一个第二故障标准特征的情况该,说明其不可纠正错误的风险非常大,可以认定为风险单元。
实施例5
图6示出了本公开实施例5的内存数据处理方法的流程图,如图6所示,本实施例是对实施例3的进一步限定,在实施例3的基础上,在预测到内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将目标地址对应的内存范围转换为计算机系统的内存页包括:
步骤S601,在预测到可纠正错误会发生不可纠正错误的情况下,获取目标地址,其中,目标地址为发生不可纠正错误的内存范围的地址;
步骤S602,将目标地址对应的内存范围,转换为内存范围映射的内存页。
在预测到会发生不可纠正错误的情况下,直接输出不可纠正错误的目标地址。获取到目标地址直接进行转换,以保证快速衔接对不可纠正错误的内存范围,映射的内存页进行隔离的流程。
根据错误信息预测可纠正错误是否会发生不可纠正错误,可以由上内存故障预测模块进行执行。
内存故障预测模块按照上述方式进行是否会发生不可纠正错误的预测时,也是需要确定不可纠正错误会出现的内存范围,将其内存范围作为地址,不仅可以保证对不可纠正错误的处理准确性,与此同时还可以保证系统安全稳定运行。
需要说明的话是,一个上述内存范围对应的内存页可以为多个,多个内存也可以通过表格list的方式进行输出。
上述内存范围与内存页的映射关系在内存范围创建或者划分时就已经确定,其映射关系可以由计算机系统,或者第三方服务端进行存储,在需要使用时根据请求进行调用。
作为一种可选的实施方式,在预测到内存中会发生不可纠正错误的情况下,将不可纠正错误的目标地址对应的内存范围,转换为计算机系统的内存页包括:在接收内存故障预测模块输出的目标地址之后,自动将目标地址对应的内存范围转换为计算机系统的内存页,并自动触发将内存页进行隔离的步骤。
在收到目标地址后,自动将内存范围转换为内存页,并自动触发隔离操作,尽可能快速的进行内存页转换和隔离,以对不可纠正错误进行隔离,避免了数据流程过长,不可纠正错误已经发生,还没有进行隔离,就会导致系统工作中断的问题。
内存故障预测模块输出目标地址后,就可以确定其预测出不可纠正错误会发生在目标地址对应的内存范围中。
为了保证不可纠正错误的处理的时效性,在接收内存故障预测模块输出的目标地址之后,自动将目标地址对应的内存范围转换为计算机系统的内存页,并自动触发将内存页进行隔离的步骤。
实施例6
相应地,请参考图7,图7示出了本公开实施例6的内存数据处理系统的示意图,根据第二方面,本公开实施例提供一种内存数据处理系统,该系统包括:内存故障预测模块71,错误检测和纠正服务器72,内存页隔离模块73,下面对该系统进行详细说明。
错误检测和纠正服务器72,与计算机系统相连,用于获取计算机系统的内存中发生的可纠正错误的错误信息,并进行存储;
内存故障预测模块71,与错误检测和纠正服务器相连,用于根据错误信息,预测内存中是否会发生不可纠正错误;
计算机系统,在预测到内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将目标地址对应的内存范围转换为计算机系统的内存页,其中,目标地址的内存范围与内存页具有映射关系;
内存页隔离模块73与计算机系统相连,用于将内存页进行隔离,以隔离目标地址将会发生的不可纠正错误。
通过可纠正错误的错误信息预测是否会发生不可纠正错误,并在预测到会发生不可纠正错误的情况下,将目标地址的对应的内存范围转换为内存页进行隔离。
从而实现预先对不可纠正错误进行准确预测,并对不可纠正错误进行处理。保证了计算机系统可以正常工作,避免了不可纠正错误发生后会导致计算机系统工作中断,影响系统正常运行的问题。
上述错误检测和纠正服务器72包括:监测模块,用于监测所述错误信息是否发生更新,以监测所述计算机系统是否发生可纠正错误;获取模块,用于在监测到所述错误信息发生更新的情况下,获取计算机系统的内存中发生的可纠正错误的错误信息,并执行根据所述错误信息,预测所述可纠正错误是否会发生不可纠正错误的步骤。
上述内存故障预测模块71包括:查找单元,用于根据错误信息中发生可纠正错误的存储单元的地址,以及内存范围的故障判定规则,查找发生故障的内存范围,其中,内存包括多个内存范围,内存范围包括多个存储单元;检测单元,用于根据发生可纠正错误的存储单元的数据特征,检测存储单元是否为风险单元;预测单元,用于根据风险单元的参数特征,确定内存是否会发生不可纠正错误。
上述内存范围包括:内存行,内存列,内存块;在内存范围为内存行的情况下,内存行的故障判定规则为:内存行中发生可纠正错误的位置区域长度不超过长度阈值,且发生可纠正错误的存储单元的数量达到第二数量阈值的情况下,确定内存行故障。
上述检测单元包括:读取子单元,用于读取发生可纠正错误的存储单元的位图;提取子单元,用于将位图中错误位的错误类型和结构特征,作为存储单元的数据特征,其中,错误位为位图中发生错误的比特位;对比子单元,用于将数据特征与预设的故障标准特征进行对比,确定存储单元是否为风险单元。
上述对比子单元包括:对比二级子单元,用于将数据特征与第一故障标准特征,以及第二故障标准特征进行对比,其中,第一故障标准特征为只能被部分修复的故障的标准特征,第二故障标准特征为能够被完全修复的故障的标准特征;确定二级子单元,用于在数据特征至少符合一个第一故障标准特征,且不符合任意一个第二故障标准特征的情况下,确定数据特征对应的存储单元为风险单元。
上述预测单元包括:统计子单元,用于统计内存范围中风险单元的数量;确定子单元,用于根据内存范围的风险单元的数量是否达到第一数量阈值,确定内存范围是否会发生不可纠正错误;定位子单元,用于在确定内存范围会发生不可纠正错误的情况下,将内存范围的地址作为不可纠正错误的目标地址,其中,内存范围与内存页具有映射关系。
上述计算机系统包括:地址获取模块,用于在预测到所述可纠正错误会发生不可纠正错误的情况下,获取所述目标地址,其中,所述目标地址为发生不可纠正错误的内存范围的地址;映射转换模块,用于将所述目标地址对应的内存范围,转换为所述内存范围映射的内存页。
上述映射转换模块包括:转换单元,用于在获取所述目标地址之后,自动将所述目标地址对应的内存范围转换为所述计算机系统的内存页,并自动触发将所述内存页进行隔离的步骤。
上述网络检测装置包括处理器和存储器,上述内存故障预测模块71,错误检测和纠正服务器72,内存页隔离模块73等都可以作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过在网络传输提升效率时,通过对待检测网络的客户端的多维网络数据进行获取和归因,以确定网络异常的位置和原因,进而针对性的提升和改善网络,可以更高效快速的实现网络传输的优化。
实施例7
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本公开实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现内存数据处理方法或网络检测显示方法。
图8示出了本公开实施例7的计算机终端的示意图,如图8所示,本申请实施例提供了一种计算机终端80,计算机终端包括处理器82、存储器84及存储在存储器上并可在处理器上运行的程序。
在本申请中,上述实施例中的技术方案均可以应用于如图8所示的计算机终端80上。计算机终端80可以包括至少一个(图中仅示出一个)处理器82(处理器82可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器84、以及用于通信功能的传输模块86。本领域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端80还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
存储器84可用于存储应用软件的软件程序以及模块,处理器82通过运行存储在存储器84内的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器84可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器84可进一步包括相对于处理器82远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端80。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置86用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端80的通信供应商提供的无线网络。在一个实例中,传输装置86包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置86可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
处理器执行程序时实现上述内存数据处理方法的步骤:获取计算机系统的内存中发生的可纠正错误的错误信息;根据错误信息,预测内存中是否会发生不可纠正错误;在预测到内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将目标地址对应的内存范围转换为计算机系统的内存页,其中,目标地址的内存范围与内存页具有映射关系;将内存页进行隔离,以隔离将会发生的不可纠正错误。
通过可纠正错误的错误信息预测是否会发生不可纠正错误,并在预测到会发生不可纠正错误的情况下,将目标地址的对应的内存范围转换为内存页进行隔离。从而实现预先对不可纠正错误进行准确预测,并对不可纠正错误进行处理。保证了计算机系统可以正常工作,避免了不可纠正错误发生后会导致计算机系统工作中断,影响系统正常运行的问题。
作为一种可选的实施方式,获取计算机系统的内存中发生的可纠正错误的错误信息包括:监测到错误信息是否发生更新,以监测计算机系统是否发生可纠正错误;在监测到错误信息发生更新的情况下,通过内存故障预测模块,获取计算机系统的内存中发生的可纠正错误的错误信息,并执行根据错误信息,预测可纠正错误是否会发生不可纠正错误的步骤。
计算机系统一旦发生可纠正错误,就会更新错误信息。通过对错误信息更新的监测,能够在发生可纠正错误的第一时间,进行不可纠正错误的预测,并在后续预测到不可纠正错误的情况下,对不可纠正错误进行隔离处理。保证不可纠正错误预测的时效性。
作为一种可选的实施方式,,根据错误信息,预测内存中是否会发生不可纠正错误包括:根据错误信息中发生可纠正错误的存储单元的地址,以及内存范围的故障判定规则,查找发生故障的内存范围,其中,内存包括多个内存范围,内存范围包括多个存储单元;根据发生可纠正错误的存储单元的数据特征,检测存储单元是否为风险单元;根据风险单元的参数特征,确定内存是否会发生不可纠正错误。
通过先检测内存中故障的内存范围,在故障的内存范围中,获取发生可纠正错误的存储单元的数据特征,检测存储单元是否为风险单元,在风险单元的参数特征满足一定要求时,认定会发生不可纠正错误。根据可纠正错误的数据特征,来预测不可纠正错误,提高不可纠正错误的预测准确率。
作为一种可选的实施方式,根据风险单元的参数特征,确定内存是否会发生不可纠正错误包括:统计内存范围中风险单元的数量;根据内存范围的风险单元的数量是否达到第一数量阈值,确定内存范围是否会发生不可纠正错误;在确定内存范围会发生不可纠正错误的情况下,将内存范围的地址作为不可纠正错误的目标地址,其中,内存范围与内存页具有映射关系。
根据风险单元的数量,是否达到第一数量阈值,来预测内存范围是否会发生不可纠正错误。若预测到该内存范围会发生不可纠正错误的情况下,将该内存范围的地址,作为目标地址进行输出。进一步提高不可纠正错误的准确率。
作为一种可选的实施方式,内存范围包括:内存行,内存列,内存块;在内存范围为内存行的情况下,内存行的故障判定规则为:内存行中发生可纠正错误的位置区域长度不超过长度阈值,且发生可纠正错误的存储单元的数量达到第二数量阈值的情况下,确定内存行故障。
在内存范围为内存行的情况下,根据发生可纠正错误的位置区域长度和存储单元数量,来表征内存行中存储单元的密度,进而判定该内存行是否故障,以预测是否可能导致不可纠正错误的风险。
作为一种可选的实施方式,根据发生可纠正错误的存储单元的数据特征,检测存储单元是否为风险单元包括:读取发生可纠正错误的存储单元的位图;将位图中错误位的错误类型和结构特征,作为存储单元的数据特征,其中,错误位为位图中发生错误的比特位;将数据特征与预设的故障标准特征进行对比,确定存储单元是否为风险单元。
根据可纠正错误的存储单元的位图中错误类型和结构特征,作为数据特征与故障标准特征进行比对,来确定是否属于不可纠正错误,进而确定该存储单元是否为风险单元,以便根据风险单元的参数特征预测是否会发生不可纠正错误。
作为一种可选的实施方式,将数据特征与预设的故障标准特征进行对比,确定存储单元是否为风险单元包括:将数据特征与第一故障标准特征,以及第二故障标准特征进行对比,其中,第一故障标准特征为只能被部分修复的故障的标准特征,第二故障标准特征为能够被完全修复的故障的标准特征;在数据特征至少符合一个第一故障标准特征,且不符合任意一个第二故障标准特征的情况下,确定数据特征对应的存储单元为风险单元。
从可纠正错误的数据特征的角度,通过预设的故障标准特征进行对比,预测是否会发生不可纠正错误。从而根据可纠正错误的数据特征与不可纠正错误的关系,来预测不可纠正错误,提高了不可纠正错误预测的准确性。
作为一种可选的实施方式,在预测到内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将目标地址对应的内存范围转换为计算机系统的内存页包括:在预测到可纠正错误会发生不可纠正错误的情况下,接收内存故障预测模块输出的目标地址,其中,目标地址为发生不可纠正错误的内存范围的地址;将目标地址对应的内存范围,转换为内存范围映射的内存页。
在内存故障预测模块预测到会发生不可纠正错误的情况下,直接输出不可纠正错误的目标地址。接收到目标地址直接进行转换,以保证快速衔接对不可纠正错误的内存范围,映射的内存页进行隔离的流程。
作为一种可选的实施方式,在预测到内存中会发生不可纠正错误的情况下,将不可纠正错误的目标地址对应的内存范围,转换为计算机系统的内存页包括:在接收内存故障预测模块输出的目标地址之后,自动将目标地址对应的内存范围转换为计算机系统的内存页,并自动触发将内存页进行隔离的步骤。
在收到目标地址后,自动将内存范围转换为内存页,并自动触发隔离操作,尽可能快速的进行内存页转换和隔离,以对不可纠正错误进行隔离,避免了数据流程过长,不可纠正错误已经发生,还没有进行隔离,就会导致系统工作中断的问题。
本申请还提供了一种计算机程序产品,当在作业监控数据的处理设备上执行时,适于执行初始化有上述任一方法步骤的程序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在至少一个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程作业监控数据的处理设备的处理器以产生一个机器,使得通过计算机或其他可编程作业监控数据的处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程作业监控数据的处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程作业监控数据的处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括至少一个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在至少一个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
虽然结合附图描述了本公开的实施例,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (12)

1.一种内存数据处理方法,其特征在于,所述方法包括:
获取计算机系统的内存中发生的可纠正错误的错误信息;
根据所述错误信息,预测所述内存中是否会发生不可纠正错误;
在预测到所述内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将所述目标地址对应的内存范围转换为所述计算机系统的内存页,其中,所述目标地址的内存范围与所述内存页具有映射关系;
将所述内存页进行隔离,以隔离将会发生的不可纠正错误。
2.根据权利要求1所述的方法,其特征在于,获取计算机系统的内存中发生的可纠正错误的错误信息包括:
监测所述错误信息是否发生更新,以监测所述计算机系统是否发生可纠正错误;
在监测到所述错误信息发生更新的情况下,获取计算机系统的内存中发生的可纠正错误的错误信息,并执行根据所述错误信息,预测所述可纠正错误是否会发生不可纠正错误的步骤。
3.根据权利要求2所述的方法,其特征在于,根据所述错误信息,预测所述内存中是否会发生不可纠正错误包括:
根据所述错误信息中发生可纠正错误的存储单元的地址,以及内存范围的故障判定规则,查找发生故障的内存范围,其中,所述内存包括多个所述内存范围,所述内存范围包括多个存储单元;
根据发生可纠正错误的存储单元的数据特征,检测所述存储单元是否为风险单元;
根据所述风险单元的参数特征,确定所述内存是否会发生不可纠正错误。
4.根据权利要求3所述的方法,其特征在于,所述内存范围包括:内存行,内存列,内存块;
在所述内存范围为内存行的情况下,所述内存行的故障判定规则为:所述内存行中发生可纠正错误的位置区域长度不超过长度阈值,且发生可纠正错误的存储单元的数量达到第二数量阈值的情况下,确定所述内存行故障。
5.根据权利要求3所述的方法,其特征在于,根据发生可纠正错误的存储单元的数据特征,检测所述存储单元是否为风险单元包括:
读取发生可纠正错误的存储单元的位图;
将所述位图中错误位的错误类型和结构特征,作为所述存储单元的数据特征,其中,所述错误位为所述位图中发生错误的比特位;
将所述数据特征与预设的故障标准特征进行对比,确定所述存储单元是否为风险单元。
6.根据权利要求5所述的方法,其特征在于,将所述数据特征与预设的故障标准特征进行对比,确定所述存储单元是否为风险单元包括:
将所述数据特征与第一故障标准特征,以及第二故障标准特征进行对比,其中,所述第一故障标准特征为只能被部分修复的故障的标准特征,所述第二故障标准特征为能够被完全修复的故障的标准特征;
在所述数据特征至少符合一个所述第一故障标准特征,且不符合任意一个所述第二故障标准特征的情况下,确定所述数据特征对应的存储单元为风险单元。
7.根据权利要求3所述的方法,其特征在于,根据所述风险单元的参数特征,确定所述内存是否会发生不可纠正错误包括:
统计所述内存范围中风险单元的数量;
根据所述内存范围的风险单元的数量是否达到第一数量阈值,确定所述内存范围是否会发生不可纠正错误;
在确定所述内存范围会发生不可纠正错误的情况下,将所述内存范围的地址作为所述不可纠正错误的目标地址,其中,所述内存范围与内存页具有映射关系。
8.根据权利要求2所述的方法,其特征在于,在预测到所述内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将所述目标地址对应的内存范围转换为所述计算机系统的内存页包括:
在预测到所述可纠正错误会发生不可纠正错误的情况下,获取所述目标地址,其中,所述目标地址为发生不可纠正错误的内存范围的地址;
将所述目标地址对应的内存范围,转换为所述内存范围映射的内存页。
9.根据权利要求8所述的方法,其特征在于,将所述目标地址对应的内存范围,转换为所述内存范围映射的内存页包括:
在获取所述目标地址之后,自动将所述目标地址对应的内存范围转换为所述计算机系统的内存页,并自动触发将所述内存页进行隔离的步骤。
10.一种内存数据处理系统,其特征在于,包括:内存故障预测模块,错误检测和纠正服务器,内存页隔离模块;
所述错误检测和纠正服务器,与计算机系统相连,用于获取计算机系统的内存中发生的可纠正错误的错误信息,并进行存储;
所述内存故障预测模块,与所述错误检测和纠正服务器相连,用于根据所述错误信息,预测所述内存中是否会发生不可纠正错误;
所述计算机系统,在预测到所述内存中会发生不可纠正错误的情况下,根据不可纠正错误的目标地址,将所述目标地址对应的内存范围转换为所述计算机系统的内存页,其中,所述目标地址的内存范围与所述内存页具有映射关系;
所述内存页隔离模块与所述计算机系统相连,用于将所述内存页进行隔离,以隔离所述目标地址将会发生的不可纠正错误。
11.一种计算机可读存储介质,其特征在于,所述存储介质用于存储程序,其中,所述程序执行权利要求1至9中任意一项所述的内存数据处理方法。
12.一种计算机终端,其特征在于,包括至少一个处理器和存储器,所述存储器用于存储至少一个程序,其中,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现权利要求1至9中任意一项所述的内存数据处理方法。
CN202310114945.5A 2023-02-07 2023-02-07 内存数据处理方法、系统、存储介质及计算机终端 Pending CN116089147A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310114945.5A CN116089147A (zh) 2023-02-07 2023-02-07 内存数据处理方法、系统、存储介质及计算机终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310114945.5A CN116089147A (zh) 2023-02-07 2023-02-07 内存数据处理方法、系统、存储介质及计算机终端

Publications (1)

Publication Number Publication Date
CN116089147A true CN116089147A (zh) 2023-05-09

Family

ID=86206268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310114945.5A Pending CN116089147A (zh) 2023-02-07 2023-02-07 内存数据处理方法、系统、存储介质及计算机终端

Country Status (1)

Country Link
CN (1) CN116089147A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118034991A (zh) * 2024-04-11 2024-05-14 北京开源芯片研究院 内存数据的访问方法、装置、电子设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118034991A (zh) * 2024-04-11 2024-05-14 北京开源芯片研究院 内存数据的访问方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
US12014791B2 (en) Memory fault handling method and apparatus, device, and storage medium
US10235233B2 (en) Storage error type determination
US10209896B2 (en) Performance optimization of read functions in a memory system
CN102904685B (zh) 一种硬件表项校验错误的处理方法及装置
EP4180959A1 (en) Memory failure processing method and apparatus
CN113672415B (zh) 一种磁盘故障处理方法、装置、设备及存储介质
CN110515758B (zh) 一种故障定位方法、装置、计算机设备及存储介质
CN111078459A (zh) 半导体芯片的测试方法、装置及系统
CN116089147A (zh) 内存数据处理方法、系统、存储介质及计算机终端
CN115016963A (zh) 内存页隔离方法、内存监控系统及计算机可读存储介质
CN114860487A (zh) 一种内存故障识别方法及一种内存故障隔离方法
CN115168087A (zh) 一种确定内存故障的修复资源粒度的方法及装置
CN115705261A (zh) 内存故障的修复方法、cpu、os、bios及服务器
CN116508006A (zh) 使用错误模式分析识别不可校正的错误
CN110795276A (zh) 一种存储介质的修复方法、计算机设备、存储介质
US11467896B2 (en) Sections in crash dump files
US20200111539A1 (en) Information processing apparatus for repair management of storage medium
CN108964992B (zh) 一种节点故障检测方法、装置和计算机可读存储介质
CN115686909A (zh) 内存故障的预测方法和装置、存储介质及电子装置
CN115391075A (zh) 内存故障处理方法、系统及存储介质
CN115114066A (zh) 一种内存故障监测方法、系统、存储介质及设备
WO2021103304A1 (zh) 一种数据回传方法、装置、设备及计算机可读存储介质
US20240338271A1 (en) Systems and methods for predictive memory maintenance visualization
WO2024051058A1 (zh) 内部存储器的故障修复方法及设备
US20230341822A1 (en) Redundant machine learning architecture for high-risk environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination