CN116302740A - 内存故障修复能力评估方法、装置及计算机设备 - Google Patents
内存故障修复能力评估方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN116302740A CN116302740A CN202310081259.2A CN202310081259A CN116302740A CN 116302740 A CN116302740 A CN 116302740A CN 202310081259 A CN202310081259 A CN 202310081259A CN 116302740 A CN116302740 A CN 116302740A
- Authority
- CN
- China
- Prior art keywords
- fault
- memory
- type
- target
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015654 memory Effects 0.000 title claims abstract description 849
- 230000008439 repair process Effects 0.000 title claims abstract description 339
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000012360 testing method Methods 0.000 claims abstract description 425
- 238000011156 evaluation Methods 0.000 claims abstract description 117
- 238000002347 injection Methods 0.000 claims description 15
- 239000007924 injection Substances 0.000 claims description 15
- 239000000758 substrate Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 22
- 230000001960 triggered effect Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 31
- 238000007726 management method Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000011084 recovery Methods 0.000 description 9
- 239000000243 solution Substances 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000003491 array Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2273—Test methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2268—Logging of test results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/26—Functional testing
- G06F11/261—Functional testing by simulating additional hardware, e.g. fault simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
Abstract
本申请提供了一种内存故障修复能力评估方法、装置及计算机设备,涉及内存故障技术领域。该方法中,在需要对计算机设备的内存故障修复能力进行评估时,通过向内存的目标内存控制器注入目标故障类型的测试用例中的正例故障信息,实现模拟内存的第一物理位置发生了目标故障类型的内存故障,从而实现触发计算机设备的内存故障修复功能,使得内存的第一物理位置被执行故障修复操作,进而实现对计算机设备的内存故障修复能力进行评估。这样,就无需手动更换故障内存和手机故障日志信息以及耗费大量的运行时间,就能够实现触发计算机设备的内存故障修复功能,因此,能够有效提高内存故障修复能力的评估效率。
Description
技术领域
本申请涉及内存故障技术领域,尤其涉及一种内存故障修复能力评估方法、装置及计算机设备。
背景技术
当前,为了防止因内存故障而造成计算机设备的突发宕机,提出了内存故障修复技术。然而,不同计算机设备厂商的内存故障修复能力存在较大的差异,因此,如何评估计算机设备的内存故障修复能力成为亟需解决的技术问题。
相关技术中,采用的方式是,将真实的故障内存(即已发生过故障的内存)安装在待评估的计算机设备上,进行长时间的压力测试,并手动收集计算机设备的日志信息。若计算机设备正常运行,且日志信息中无上报的内存故障信息,则认为内存故障修复能力合格。
然而,由于需要手动更换故障内存以及收集日志信息,并且需要较长的运行时间,因此,这种方式的评估效率低下。
发明内容
本申请实施例提供了一种内存故障修复能力评估方法、装置及计算机设备,能够有效提高评估效率。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种内存故障修复能力评估方法,用于计算机设备,该计算机设备包括内存和处理器,该方法由处理器执行;该方法包括:向内存的目标内存控制器注入目标故障类型的测试用例包括的正例故障信息;正例故障信息用于模拟内存的第一物理位置发生了目标故障类型的内存故障,以使得内存的第一物理位置被执行故障修复操作;根据内存的第一物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果;测试结果用于表征计算机设备对目标故障类型的内存故障的修复能力;根据目标故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果;评估结果用于表征计算机设备对目标故障类型的内存故障的修复能力。
该实施例中,在需要对计算机设备的内存故障修复能力进行评估时,通过向内存的目标内存控制器注入目标故障类型的测试用例中的正例故障信息,实现模拟内存的第一物理位置发生了目标故障类型的内存故障,从而实现触发计算机设备的内存故障修复功能,使得内存的第一物理位置被执行故障修复操作,进而实现对计算机设备的内存故障修复能力进行评估。这样,就无需手动更换故障内存和手机故障日志信息以及耗费大量的运行时间,就能够实现触发计算机设备的内存故障修复功能,因此,能够有效提高内存故障修复能力的评估效率。
在一种可能的实现方式中,向内存的目标内存控制器注入目标故障类型的测试用例包括的正例故障信息,具体为:向内存的多个内存控制器注入多个故障类型的测试用例包括的正例故障信息;多个内存控制器包括目标内存控制器,多个故障类型的测试用例包括目标故障类型的测试用例;根据目标故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果,具体为:根据多个故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果;评估结果具体用于表征计算机设备对多个故障类型的内存故障的修复能力。
在该实现方式中,通过向内存的多个内存控制器注入多个故障类型的测试用例包括的正例故障信息,从而通过多个故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果,这样,该评估结果就能够同时表征计算机设备对多种故障类型的内存故障的修复能力,从而实现了同时评估计算机设备对多个故障类型的内存故障的修复能力,提高了计算机设备的内存故障修复能力的评估可靠性和全面性。另外,通过向多个内存控制器注入多个故障类型的测试用例,可以实现同时验证计算机设备对多个故障类型的内存故障的修复能力,这样,有助于提高内存故障的注入效率,不仅有助于提高内存故障修复能力的评估效率,还有助于提高该评估方法的兼容性。
另一种可能的实现方式中,向内存的多个内存控制器注入多个故障类型的测试用例包括的正例故障信息,包括:向多个内存控制中的不同内存控制器,注入多个故障类型中的不同故障类型的测试用例包括的正例故障信息。
在该实现方式中,由于不同内存控制器用于管理内存的不同内存条,因此,通过设置不同故障类型的测试用例中的正例故障信息注入不同的内存控制器,这样,不同故障类型的内存故障可以由不同内存控制器处理,从而可以验证不同内存控制器的故障处理能力,进而有助于提高计算机设备的内存故障修复能力的评估准确性和全面性。
另一种可能的实现方式中,根据多个故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果,包括:若多个故障类型的测试用例的测试结果满足预设条件,确定计算机设备的内存故障修复能力的评估结果为合格。
在该实现方式中,通过设置多个故障类型的测试用例的测试结果满足预设条件时,确定计算机设备的内存故障修复能力的评估结果为合格,这样,就可以结合每个故障类型的测试用例的测试结果,确定评估结果,有助于保证评估结果的准确性。
另一种可能的实现方式中,根据多个故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果,包括:若多个故障类型的测试用例的总分数满足预设条件,确定计算机设备的内存故障修复能力的评估结果为合格;其中,一个故障类型的测试用例的分数根据一个故障类型的测试用例的测试结果确定。
在该实现方式中,通过设置多个故障类型的测试用例的总分数满足预设条件时,确定计算机设备的内存故障修复能力的评估结果为合格,这样,就可以结合每个故障类型的测试用例的测试结果,确定评估结果,有助于保证评估结果的准确性。
另一种可能的实现方式中,该方法还包括:根据不同故障类型的测试用例的预设权重和每个故障类型的测试用例的评分,确定多个故障类型的测试用例的总分数。
在该实现方式中,通过不同故障类型的测试用例的预设权重和每个故障类型的测试用例的评分,确定多个故障类型的测试用例的总分数,这样,多个故障类型的测试用例的总分数能够体现计算机设备对不同类型的内存故障的修复能力。
另一种可能的实现方式中,该方法还包括:根据每个故障类型的测试用例的评分,确定多个故障类型的测试用例的总分数。
在该实现方式中,通过每个故障类型的测试用例的评分,确定多个故障类型的测试用例的总分数,这样,有助于提高多个故障类型的测试用例的总分数的准确性。
另一种可能的实现方式中,根据内存的第一物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果,包括:若内存的第一物理位置实际被执行的故障修复操作类型与目标故障类型的内存故障应使用的故障修复操作类型匹配,确定目标故障类型的测试用例的测试结果为修复成功;若内存的第一物理位置实际被执行的故障修复操作类型与目标故障类型的内存故障应使用的故障修复操作类型不匹配,确定目标故障类型的测试用例的测试结果为修复失败。
另一种可能的实现方式中,该方法还包括:向目标内存控制器注入目标故障类型的测试用例的反例故障信息;反例故障信息用于模拟内存的第二物理位置发生了非目标故障类型的内存故障,以使得内存的第二物理位置被执行故障修复操作;根据内存的第一物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果,包括:根据内存的第一物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,以及内存的第二物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果。
在该实现方式中,通过设置向所述目标内存控制器注入所述目标故障类型的测试用例的反例故障信息,从而实现模拟内存的第二物理位置发生了非目标故障类型的内存故障,从而使得内存的第二物理位置被执行故障修复操作。在此基础,根据第一物理位置实际被执行的故障修复操作类型与目标故障类型的内存故障应使用的故障修复操作类型是否匹配,以及第二物理位置实际被执行的故障修复操作类型与目标故障类型的内存故障应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果,有助于目标故障类型的测试用例的测试结果能够更加准确的表征计算机设备对目标故障类型的内存故障的修复能力,进而有助于提高内存故障修复能力的评估准确性和可靠性。
另一种可能的实现方式,根据内存的第一物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,以及内存的第二物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果,包括:若内存的第一物理位置实际被执行的故障修复操作类型与目标故障类型的内存故障应使用的故障修复操作类型匹配、且内存的第二物理位置实际被执行的故障修复操作类型与目标故障类型的内存故障应使用的故障修复操作类型不匹配,确定目标故障类型的测试用例的测试结果为修复成功。
另一种可能的实现方式中,向内存的目标内存控制器注入目标故障类型的测试用例包括的正例故障信息,包括:若目标内存控制器未执行过目标故障类型应使用的故障修复操作类型,向目标内存控制器注入目标故障类型的测试用例包括的正例故障信息。
在该实现方式中,通过设置在目标内存控制器未执行过目标故障类型应使用的故障修复操作类型,向目标内存控制器注入目标故障类型的测试用例,有助于保证目标内存控制器对第一物理位置实际被执行的故障修复操作类型的确定准确性,进而有助于保证目标故障类型的测试用例的测试结果的准确性。
另一种可能的实现方式中,目标故障类型的测试用例还包括目标故障类型应使用的故障修复操作类型。
在该实现方式中,通过设置目标故障类型的测试用例还包括目标故障类型应使用的故障修复操作类型,这样,在确定目标故障类型的测试用例的测试结果时,可以直接从故障类型的测试用例中确定目标故障类型应使用的故障修复操作类型,有助于提高了确定测试结果的便利性和准确性。
另一种可能的实现方式中,正例故障信息包括内存地址、发生时间、故障严重程度和故障级别中的一个或多个;内存地址指示了内存的第一物理位置;发生时间用于指示第一物理位置发生内存故障的时间;故障严重程度用于指示第一物理位置发生的内存故障的严重程度;故障级别用于指示第一物理位置发生的内存故障的故障级别,故障级别包括可纠正级别故障或不可纠正级别故障。
在实现方式中,设置正例故障信息包括内存地址,以指示内存的第一物理位置,从而能够通过真实的内存地址指示内存上发生故障的物理位置,这样,有助于保证正例故障信息所指示的内存故障,能够更加真实的反应内存真实运行过程中的故障,进而有助于提高正例故障信息所模拟的内存故障的真实性。
此外,计算机设备在根据真实的内存地址所指示的物理位置,确定第一物理位置的故障类型时,准确性更高,这样,有助于提高计算机设备对第一物理位置实际被执行的故障修复操作类型的准确性,进而有助于内存故障修复能力的评估结果的准确性。
设置正例故障信息包括发生时间、故障严重程度、故障级别等,以指示第一物理位置发生内存故障的时间、严重程度、故障级别等,这样,计算机设备在确定对第一物理位置所使用的故障修复操作类型时,可以参考第一物理位置发生内存故障的时间、严重程度、故障级别等,有助于提高计算机设备对第一物理位置所使用的故障修复操作类型的准确性,进而有助于提高计算机设备的内存故障修复能力的评估结果的准确性。
另一种可能的实现方式中,目标故障类型包括随机单比特故障、重复单比特故障、行故障、列故障或存储阵列故障。
另一种可能的实现方式中,多个故障类型包括随机单比特故障、重复单比特故障、行故障、列故障和存储阵列故障。
另一种可能的实现方式中,输出计算机设备的内存故障修复能力的评估结果。
在该实现方式中,通过输出计算机设备的内存故障修复能力的评估结果,使得用户可以准确了解计算机设备的内存故障修复能力,这样,有助于用户根据当前业务对内存故障修复能力的需求,为当前业务选择合适的计算机设备,进而提高计算机设备的故障修复能力与要运行业务的匹配度。
另一种可能的实现方式中,目标故障类型的测试用例,是根据故障内存的历史故障信息确定的,历史故障信息包括用于确定故障内存发生了目标故障类型的内存故障的故障信息。
在该实现方式中,通过故障内存的历史故障信息确定目标故障类型的测试用例,这样,有助于保证目标故障类型的测试用例中的正例故障信息的真实性,从而有助于保证目标故障类型的测试用例所模拟的内存故障,能够更加真实的反应内存真实运行过程中的故障。
第二方面,提供了一种内存故障修复能力评估装置,该装置包括:用于执行第一方面提供的任意一种方法的功能单元,各个功能单元所执行的动作通过硬件实现或通过硬件执行相应的软件实现。例如,内存故障修复能力评估装置可以包括:注入单元、确定单元和评估单元;注入单元,用于向内存的目标内存控制器注入目标故障类型的测试用例包括的正例故障信息;正例故障信息用于模拟内存的第一物理位置发生了目标故障类型的内存故障,以使得内存的第一物理位置被执行故障修复操作;确定单元,用于根据内存的第一物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果;测试结果用于表征计算机设备对目标故障类型的内存故障的修复能力;评估单元,用于根据目标故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果;评估结果用于表征计算机设备对目标故障类型的内存故障的修复能力。
第三方面,提供了一种计算机设备,包括:包括:处理器和存储器,处理器与存储器连接。存储器用于存储计算机执行指令,处理器执行存储器存储的计算机执行指令,从而实现第一方面提供的任意一种方法。
第四方面,提供了一种芯片,芯片包括:处理器和接口电路;接口电路,用于接收代码指令并传输至处理器;处理器,用于运行代码指令以执行上述第一方面提供的任意一种方法。
第五方面,提供了一种计算机可读存储介质,存储有计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行上述第一方面提供的任意一种方法。
第六方面,提供了一种计算机程序产品,包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行上述第一方面提供的任意一种方法。
其中,第二方面至第六方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种计算机设备的系统架构图;
图2为本申请实施例提供的一种内存与内存控制器的连接示意图;
图3为本申请实施例提供的一种内存条的结构示意图;
图4为本申请实施例提供的一种内存故障修复能力评估模块的工作原理图;
图5为本申请实施例提供的一种内存故障修复能力评估方法的流程图;
图6为本申请实施例提供的另一种内存故障修复能力评估方法的流程图;
图7为本申请实施例提供的另一种内存故障修复能力评估方法的流程图;
图8为本申请实施例提供的一种内存故障修复能力评估装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
其中,在本申请的描述中,除非另有说明,“/”表示前后关联的对象是一种“或”的关系,例如,A/B可以表示A或B;本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。
并且,在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。同时,在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念,便于理解。
首先,对本申请实施例的应用场景进行示例性介绍。
内存是计算机设备的主要部件之一。随着内存的集成度越来越高、制程越来越小,以及基础失效率越来越高,内存故障已经成为计算机设备宕机的重要原因之一。
当前,为了防止因内存故障而造成计算机设备的突发宕机,提出了内存故障修复技术。然而,不同计算机设备厂商的内存故障修复能力存在较大的差异,因此,如何评估的计算机设备内存故障修复能力成为亟需解决的技术问题。
相关技术中,采用的方案是,将真实的故障内存(即已发生过故障的内存)安装在待评估的计算机设备上,进行长时间的压力测试。在压力测试过程中,手动收集计算机设备的日志信息,若计算机设备正常运行,且日志信息中无上报的内存故障信息,则认为内存故障修复能力合格。
然而,由于需要手动更换故障内存以及收集日志信息,并且需要较长的运行时间,因此,这种方式的评估效率低下。
有鉴于此,本申请实施例提出了一种内存故障修复能力评估方法,在需要对计算机设备的内存故障修复能力进行评估时,通过向内存的目标内存控制器注入目标故障类型的测试用例中的正例故障信息,实现模拟内存的第一物理位置发生了目标故障类型的内存故障,从而实现触发计算机设备的内存故障修复功能,使得内存的第一物理位置被执行故障修复操作,进而实现对计算机设备的内存故障修复能力进行评估。这样,就无需手动更换故障内存和手机故障日志信息以及耗费大量的运行时间,就能够实现触发计算机设备的内存故障修复功能,因此,能够有效提高内存故障修复能力的评估效率。
其次,对本申请实施例的系统架构进行示例性介绍。
如图1所示,为本申请实施例提供的一种计算机设备的系统架构图。
硬件方面,该计算机设备包括处理器、内存和至少一个内存控制器。其中,内存通过至少一个内存控制器与CPU进行通信连接,内存控制器用于控制内存以及负责内存和CPU之间的数据交换。
示例性的,该计算机设备的CPU配置信息为X86架构的ICX平台,内存配置信息为满配内存条。内存条的规格为DDR4(double data rate,双倍数据速率)、X4(内存条上的内存芯片的规格)、32G(存储容量)、2个Rank(内存条的2个面上设置有内存芯片)。
可选地,该处理器可以是中央处理器(central processing unit,CPU)或带外控制器。
带外控制器,完全独立于计算机设备的中央处理器之外,通过计算机设备的带外管理接口与中央处理器进行通信。并且,通过专用的数据通道对计算机设备进行远程维护和管理。
示例性的,带外控制器可以是计算机设备外部的监控管理单元、处理器外的管理芯片中的管理系统、基板管理控制器(baseboard management controller,BMC)、系统管理模块(systemmanagement mode,SMM)中的一个。需要说明的,本申请实施例对带外控制器的具体形式并不限定,以上仅为示例性说明。在下述实施例中,仅以带外控制器为BMC为例进行说明。
需要说明的是,不同计算机设备对BMC有不同的称呼,例如,一些计算机设备称为BMC,一些计算机设备称为iLO,另一计算机设备称为iDRAC。不论是叫BMC,还是叫iLO或iDRAC,都可以理解为是本申请实施例中的BMC。
内存控制器可以集成于CPU的基板上。或者,内存控制器也可以设置于计算机设备的北桥芯片内。
需要说明的,本申请实施例对内存控制器的设置位置不做限制,以下,仅以内存控制器集成于CPU的基板上为例,对本申请实施例进行示例性说明。
可选地,硬件方面,该CPU还包括奇偶寄存器。
其中,奇偶寄存器与CPU、内存控制器连接。奇偶寄存器用于记录内存的故障状态信息,该故障状态信息用于指示内存所发生的内存故障的严重程度。
可选地,硬件方面,该计算机设备还包括可靠行可用性可服务性(reliabilityavailability and serviceability,RAS)寄存器。
其中,RAS寄存器与CPU、内存控制器连接。RAS寄存器与内存控制器一一对应。一个RAS寄存器用于记录该一个RAS寄存器对应的内存控制器的内存故障修复资源的使用情况。
需要说明的,内存故障修复资源的相关说明将在后续实施例进行说明,此处不再赘述。
可选地,计算机设备包括多个内存控制器。内存包括多个内存条。
其中,该多个内存条通过多个内存控制器与CPU进行通信连接。不同内存条可以共用一个内存控制器。不同内存控制器所连接的内存条不同。
如图2所示,为图1中所示的内存与内存控制器的连接示意图。
示例性的,多个内存控制器包括内存控制1、内存控制器2、内存控制器3,多个内存条包括内存条11、……、内存条1k、内存条21、……、内存条2m、内存条31、……、内存条3n。其中,k、m、n为大于1的正整数。k、m、n可以相等,或者,也可以不相等。
其中,内存条11、……、内存条1k通过内存通道1与内存控制器1连接,内存条21、……、内存条2k通过内存通道2与内存控制器2连接,内存条31、……、内存条3k通过内存通道3与内存控制器3连接。
需要说明的,内存控制器与内存通道一一对应,也即,不同内存控制器通过不同的内存通道连接内存条。另外,一个内存控制器仅负责管理其所连接的内存条以及该内存条与CPU之间的数据交换。
需要说明的,本申请实施例对一个内存控制器所连接的内存条的数量不做限制。例如,可以是一个内存控制器可以连接2个、4个或6个内存条。
在一些实施例中,一个内存控制器配置有部分缓存数据替换(partial cacheline sparing,PCLS)、行替换(post-package repair,PPR)、自适应型双颗粒数据纠正(adaptive double device data correction,ADDDC)等故障修复操作类型所需使用的故障修复资源。
其中,PCLS所需使用的故障修复资源为内存控制器的存储空间,ADDDC所需使用故障修复资源为内存条上冗余颗粒,PPR所需使用的故障修复资源为内存条上的冗余行。
需要说明的,一个内存控制器中的内故障修复资源用于修复该一个内存控制器所连接的内存条。换言之,不同内存控制器的内存故障修复资源是独立配置以及使用的,一个内存控制器无法使用另一个内存控制器中的内存故障修复资源。
示例性的,内存控制器1配置的ADDDC所需使用故障修复资源为内存条11、……、内存条1k上的冗余芯片,由于这部分内存条与内存控制器2、内存控制器3并不连接,因此,内存控制器2、内存控制器3无法使用内存控制器1配置的故障修复资源。
图3所示为图2中的内存条的结构示意图。以下,结合图3,对本申请实施例中的内存条进行示例性介绍。
可选地,内存条可以是单边接触内存模组(single in-line memory module,SIMM)、双列直插式存储模块(dual-inline-memory-modules,DIMM)、小外形双列直插式内存模块(small outline dual in-line memory module,SO-DIMM)、全缓冲内存模组(fullybuffered-DIMM,FB-DIMM)等。需要说明的,本申请实施例对内存条的具体形式并不限定,以上仅为示例性说明。在下述实施例中,仅以内存条为DIMM为例进行说明。
其中,如图3所示,内存条具有至少一个内存列(Rank),如内存列0、内存列1。每个内存列分别位于内存的一个面上,每个内存列包括至少一个子内存列(SubRank),每个内存列或子内存列包括多个内存芯片(Device),如内存芯片00、内存芯片01等。每个内存芯片被划分为多个存储阵列组(BankGroup),每个存储阵列组包括多个存储阵列(Bank),如存储阵列0、存储阵列1等。每个存储阵列被划分为多个存储单元(Ccell),每个存储单元具有一个内存行(Row)地址和一个内存列(Column)地址,每个存储单元包括一个或多个比特位(图3中未示出)。
在一种划分方式中,内存条从上级至下级可以依次划分为内存芯片、存储阵列组、存储阵列,存储行/存储列、存储单元、比特位。
可选地,软件方面,该计算机设备包括操作系统(operating system,OS)和处理器固件。其中,OS和处理器固件由CPU运行。
处理器固件,也称为处理器固件程序,可以为Firmware、基本输入输出系统(basicinput output system,BIOS)、管理引擎(management engine,ME)、微码或智能管理单元(intelligent management unit,IMU)等固件。需要说明的,本申请实施例对处理器固件的具体形式并不限定,以上仅为示例性说明。在下述实施例中,仅以处理器固件为BIOS为例进行说明。
在一些实施例中,内存发生故障后,内存控制器获取内存故障信息,并上报给CPU,在CPU运行BIOS的过程中,CPU将内存故障信息上报给BMC,由BMC根据内存故障信息确定对内存使用的故障修复操作类型。
可选地,在软件方面,该计算机设备还包括故障分析模块和故障修复模块。
故障分析模块用于根据内存故障信息分析内存故障所需使用的故障修复操作类型。其中,故障分析模块所执行的动作由BMC实现或由BMC执行相应的软件程序实现。
故障修复模块用于根据故障分析模块的分析结果对内存进行故障修复。其中,故障修复模块所执行的动作由内存控制器实现或由内存控制器执行相应的软件程序实现。或者,故障修复模块所执行的动作也可以CPU实现。
需要说明的,本申请实施例对实现故障修复模块所执行动作的部件不做限制,以下仅以故障修复模块所执行的动作由内存控制器实现为例进行说明。
可选地,在软件方面,该计算机设备还包括内存故障修复能力评估模块(以下简称评估模块)。该内存故障修复能力评估模块用于评估计算机设备的内存故障修复能力。
在一些实施例中,如图1所示,该内存故障修复能力评估模块所执行的动作由CPU实现或由CPU执行相应的软件实现。
在另一些实施例中,该内存故障修复能力评估模块所执行的动作由BMC实现或由BMC执行相应的软件实现。
需要说明的,本申请实施例对实现内存故障修复能力评估模块所执行的动作的部件并不限定,以上仅为示例性说明。在下述实施例中,仅以内存故障修复能力评估模块所执行的动作由CPU实现为例进行说明。
可选地,如图4所示,评估模块包括信息识别单元、地址转换单元、用例测试单元和评估结果单元。
信息识别单元,用于获取待评估计算机设备的配置信息。该配置信息包括内存控制器的数量、内存控制器的地址信息等。
需要说明的,信息识别单元可以从BMC获取计算机设备的配置信息,或,也可以在CPU运行的BIOS的过程中,从CPU获取计算机设备的配置信息,本申请实施例对此不做限制。
地址转换单元,用于获取待评估计算机设备的内存地址映射信息。该内存地址映射信息包括内存物理地址与内存系统之间的映射关系。另外,地址转换单元还用于根据内存地址映射信息,进行内存物理地址与内存系统地址之间转换。
需要说明的,地址转换单元可以从BMC获取内存地址映射信息,或者,也可以在CPU运行的BIOS的过程中,从CPU获取内存地址映射信息,本申请实施例对此不做限制。
用例测试单元,用于向内存控制器注入测试用例的故障信息,以使得故障信息指示的发生内存故障的物理位置被执行故障修复操作。例如,用例测试单元可以包括故障注入工具einj。
示例性的,用例测试单元包括至少一个故障类型的测试用例。该至少一个故障类型的测试用例可以是用例测试单元自带的,例如,出厂时配置的,或者,该至少一个故障类型的测试用例还可以是用户在评估计算机设备的内存故障修复能力前,导入到用例测试单元中的。
评估结果单元,用于获取故障修复模块对内存进行故障修复时的故障修复信息,根据故障修复信息确定测试用例的测试结果,以及根据测试用例的测试结果确定内存故障修复能力的评估结果。该故障修复信息包括故障修复操作类型以及故障修复地址。
示例性的,该故障修复信息存储于内存控制器所连接的RAS寄存器中。
可选地,在软件方面,该计算机设备还包括目标应用程序。该目标应用程序用于评估计算机设备的内存故障修复能力。
计算机设备中存储有目标安装包,该目标安装包用于在计算机设备上安装目标应用程序。用户在需要评估计算机设备进行内存故障修复能力时,对目标安装包执行安装操作,以在计算机设备上安装目标应用程序,从而实现通过运行目标应用程序,实现评估计算机设备的内存故障修复能力。
需要说明的,目标应用程序评估计算机设备的内存故障修复能力的原理,与内存故障修复能力评估模块的评估原理相同,因此,目标应用程序的相关说明可以参考内存故障修复能力评估模块,例如,目标应用程序也可以包括上述信息识别单元、地址转换单元、用例测试单元和评估结果单元,此处不再赘述。
在一些实施例中,目标应用程序由CPU运行。例如,该目标应用程序安装于计算机设备的硬盘中。CPU运行目标应用程序,以评估计算机设备的内存故障修复能力。
在另一些实施例中,目标应用程序由BMC运行。例如,该目标应用程序安装于BMC的存储器中。BMC运行目标应用程序,以评估计算机设备的内存故障修复能力。
可选地,目标应用程序包括至少一个故障类型的测试用例。
在一些实施例中,目标安装包中包括至少一个故障类型的测试用例,因此,在目标应用程序安装在计算机设备上之后,目标应用程序中自带至少一个故障类型的测试用例。
在另一些实施例中,目标应用程序配置有导入控件。该导入控件用于向目标应用程序导入至少一个故障类型的测试用例。用户在需要使用目标应用程序评估计算机设备的内存故障修复能力时,触发导入控件,CPU响应于用户对导入控件的触发操作,将至少一个故障类型的测试用例导入目标应用程序。
需要说明的,本申请实施例描述的系统架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
为了便于理解,以下结合附图对本申请提供的内存故障修复能力评估方法进行示例性介绍。该方法适用于图1所示的计算机设备。
可选地,本申请提供的内存故障修复能力评估方法由计算机设备的处理器执行。该处理器可以是计算机设备的CPU或带外控制器。
以下,仅以CPU执行为例,对本申请提供的内存故障修复能力评估方法进行介绍。
可以理解的,带外控制器执行内存故障修复能力评估方法的原理,与CPU执行内存故障修复能力评估方法原理相同,因此,带外控制器执行内存故障修复能力评估方法的过程,可以参考CPU执行内存故障修复能力评估方法的过程,后续不再赘述。
本申请以下实施例将分成三部分对内存故障修复能力评估方法的方案进行示例性介绍。
第一部分,结合图5,介绍生成多个故障类型的测试用例的过程。
第二部分,结合图6,介绍使用第一部分中的目标故障类型的测试用例,对计算机设备的内存故障修复能力进行评估的过程。目标故障类型为多个故障类型中的任意一个故障类型。
第三部分,结合图7,介绍使用第一部分中的多个故障类型的测试用例,对计算机设备的内存故障修复能力进行评估的过程。
其中,用于执行第一部分的计算机设备和用于执行第二部分、第三部分的计算机设备可以是同一个计算机设备,或者,也可以是不同的计算机设备,本申请实施例对此不做限制。
图5是根据一示例性实施例示出的一种测试用例生成方法的流程图。示例性的,该方法包括S501-S502。
S501:CPU获取故障内存的历史故障信息。
其中,故障内存是指已经发生过内存故障的内存。
在一些实施例中,将故障内存安装于计算机设备上,并使故障内存在一定压力下运行。运行过程中,故障内存会发生内存故障。故障内存发生内存故障后,故障内存所连接的内存控制器,会收集内存故障信息并上报,例如,可以是上报给CPU。CPU接收到内存故障信息后,会将该内存故障信息发送给BMC,由BMC根据该内存故障信息确定对故障内存使用的故障修复操作类型。另外,BMC还可以存储该内存故障信息。
在此基础上,故障内存在计算机设备上运行一段时间后,CPU可以从BMC存储的内存故障信息中获取故障内存的历史故障信息。
可以理解的,使故障内存在一定压力下运行,是为了加速故障内存发生内存故障,以缩短获取故障内存的历史故障信息所需的时长。
另外,对于如何使故障内存在一定压力下运行,可以参考相关技术中对内存进行压力测试的过程,二者原理相同,此处不再赘述。
需要说明的,本申请实施例对压力的大小不做限定,用户可以根据预计使用的时长(即获取故障内存的历史故障信息所需的时长)进行动态设置。例如,若预计使用的时长较短,则应施加较大的压力,若预计使用的时长较长,则可以施加较小的压力。
可选地,历史故障信息包括多个故障地址。
其中,一个故障地址用于指示故障内存上发生内存故障的一个物理位置。
在此,历史故障信息所包括的故障地址可以为物理地址。该故障地址至少包括内存芯片标识、存储阵列组标识、存储阵列标识、行标识、列标识、存储单元标识等。
本实施例中,通过设置历史故障信息包括多个故障地址,从而使得基于历史故障信息生成的测试用例中可以包括多个内存地址(即故障地址),进而实现通过该多个内存地址指示待评估计算机设备上内存发生故障的物理位置,这样,在向内存控制器注入测试用例的故障信息,以实现模拟内存发生内存故障时,有助于保证内存故障的真实性,进而有助于保证能够触发计算机设备的内存故障修复功能。
可选地,历史故障信息还包括多个故障时间。
其中,多个故障时间与多个故障地址一一对应。一个故障时间为一个故障地址所指示的物理位置发生内存故障的时间。
本实施例中,通过设置历史故障信息包括多个故障时间,从而使得基于历史故障信息生成的测试用例中可以包括该多个故障时间,这样,在基于测试用例向待评估计算机设备注入内存故障时,可以同时注入该多个故障时间,不仅有助于进一步保证注入的内存故障的真实性,还可以使得待评估计算机设备能够根据多个故障时间分析待使用的故障修复操作类型,从而有助于提高待评估计算机设备所使用的故障修复操作类型的准确性。
可选地,历史故障信息还包括多个故障严重程度。
其中,多个故障严重程度与多个故障地址一一对应。一个故障严重程度用于指示一个故障地址所指示的物理位置发生的内存故障的严重程度。
示例性的,历史故障信息包括多个奇偶寄存器中存储的数据。其中,奇偶寄存器中存储的数据可以为二进制数据,该二进制的数据越复杂,则故障严重程度越高。例如,二进制数据为8位,则00000000的复杂程度低于01001101。本实施例中,通过设置历史故障信息包括多个故障严重程度,从而使得基于历史故障信息生成的测试用例中可以包括该多个故障严重程度,这样,在基于测试用例向待评估计算机设备注入内存故障时,可以同时注入该多个故障严重程度,不仅有助于进一步保证注入的内存故障的真实性,还可以使得待评估计算机设备能够根据多个故障严重程度分析待使用的故障修复操作类型,从而有助于提高待评估计算机设备所使用的故障修复操作类型的准确性。
可选地,故障内存发生的内存故障的故障类型包括随机单比特故障、重复单比特故障、行故障、列故障和存储阵列故障。
示例性的,故障内存包括多个内存芯片,多个内存芯片包括目标内存芯片,该目标内存芯片可以是多个内存芯片中的任意一个内存芯片。目标内存芯片包括多个存储阵列,多个存储阵列包括目标存储阵列,该目标存储阵列可以是多个存储阵列中的任意一个存储阵列。
以下,以目标内存芯片、目标存储阵列为例,对上述随机单比特故障、重复单比特故障、行故障、列故障和存储阵列故障等故障类型进行示例性说明。
随机单比特故障,是指目标内存芯片的多个不同存储阵列上分别发生了一次单比特故障。
重复单比特故障,是指目标存储阵列上一个物理位置发生单比特故障的次数大于或等于第一预设阈值。其中,第一预设阈值为大于1的正整数。
行故障,是指目标存储阵列的一个内存行上,发生内存故障的存储单元的数量大于或等于第二预设阈值。其中,第二预设阈值为大于1的正整数。
列故障,是指目标存储阵列的一个内存列上,发生内存故障的存储单元的数量大于或等于第三预设阈值。其中,第三预设阈值为大于1的正整数。
存储阵列故障,是指目标存储阵列上发生内存故障的物理位置所在的内存行的数量大于或等于第四预设阈值,且所在的内存列的数量大于或等于第五预设阈值。其中,第四预设阈值为大于1的正整数,第五预设阈值为大于1的正整数。
需要说明的,本申请实施例对第一预设阈值、第二预设阈值、第三预设阈值、第四预设阈值以及第五预设阈值的具体数值不做限制。另外,不同故障类型中的预设阈值,可以相同,或者,也可以不同,本申请实施例对此不做限制。
在该实施例中,通过设置故障内存发生的内存故障的故障类型包括随机单比特故障、重复单比特故障、行故障、列故障和存储阵列故障等,从而分别生成不同故障类型的测试用例,进而可以基于不同故障类型的测试用例,对待评估计算机设备对不同故障类型的故障修复能力进行评估,这样,有助于提高计算机设备的内存故障修复能力的评估可靠性和全面性。
S502:CPU根据故障内存的历史故障信息,生成多个故障类型的测试用例。
其中,多个故障类型的测试用例包括目标故障类型的测试用例。目标故障类型的测试用例可以是多个故障类型的测试用例中任意一个故障类型的测试用例。
以下,以目标故障类型的测试用例为例,对多个故障类型的测试用例进行介绍。
可选地,目标故障类型的测试用例包括正例故障信息以及目标故障类型应使用的故障修复操作类型。
其中,正例故障信息用于模拟内存发生了目标故障类型的内存故障。换言之,在向计算机设备的内存控制器注入目标故障类型的测试用例包括的正例故障信息后,计算机设备基于该正例故障信息所确定的内存故障的类型应为目标故障类型,从而实现模拟内存发生了目标故障类型的内存故障。
示例性的,目标故障类型为行故障,则行故障的测试用例包括的正例故障信息用于模拟内存发生了行故障。也就是说,在向内存控制器注入行故障的测试用例包括的正例故障信息后,基于该正例故障信息所确定的内存故障的类型应为行故障。
在此,正例故障信息包括多个内存地址,也即,基于历史故障信息确定的目标故障类型对应的多个故障地址;多个内存地址指示了内存的多个第一物理位置。这样,有助于保证正例故障信息所指示的内存故障,能够更加真实的反应内存真实运行过程中的故障,进而有助于提高向内存控制器注入的内存故障的真实性,以及计算机设备对多个第一物理位置实际执行的故障修复操作类型的准确性。
在此,正例故障信息包括多个发生时间,也即,多个故障地址发生内存故障的多个时间;多个发生时间用于指示多个内存地址指示的多个第一物理位置发生内存故障的时间。这样,有助于提高计算机设备对多个第一物理位置所使用的故障修复操作类型的准确性,进而有助于提高计算机设备的内存故障修复能力的评估结果的准确性。
在此,正例故障信息包括多个故障严重程度,也即,多个故障地址发生的内存故障的多个故障严重程度;多个故障严重程度用于指示多个内存地址指示的多个第一物理位置发生的内存故障的严重程度。这样,有助于提高计算机设备对多个第一物理位置所使用的故障修复操作类型的准确性,进而有助于提高计算机设备的内存故障修复能力的评估结果的准确性。
在此,正例故障信息包括多个故障级别,也即,多个故障地址发生的内存故障的多个故障级别;一个故障级别包括可纠正级别故障(corrected error,CE)或不可纠正级别故障(uncorrected error,UCE)。多个故障级别用于指示多个内存地址指示的多个第一物理位置发生的内存故障的故障级别。这样,有助于提高计算机设备对多个第一物理位置所使用的故障修复操作类型的准确性,进而有助于提高计算机设备的内存故障修复能力的评估结果的准确性。
本实施例中,根据故障内存的历史故障信息,生成多个故障类型的测试用例,从而使得多个故障类型的测试用例中的正例故障信息均为真实的故障信息,这样,在向计算机设备注入测试用例中的故障信息,以模拟内存发生内存故障时,有助于保证所模拟的内存故障的真实性,从而有助于保证成功触发待评估计算机设备的内存故障修复功能,进而有助于保证对待评估计算机设备的内存故障修复能力的评估能够顺利进行。另外,通过向待评估计算机设备注入真实的故障信息,还有助于提高评估结果的准确性。
可选地,目标故障类型的测试用例还包括反例故障信息。
其中,反例故障信息用于模拟内存发生了非目标故障类型的内存故障。换言之,在向计算机设备的内存控制器注入目标故障类型的测试用例包括的反例故障信息后,计算机设备基于该反例故障信息所确定的内存故障的类型应为非目标故障类型,从而实现模拟内存发生了非目标故障类型的内存故障。
示例性的,目标故障类型为行故障,则行故障的测试用例包括的反例故障信息用于模拟内存发生了非行故障(即行故障之外的其他故障类型,如随机单比特故障、列故障等)。也就是说,在向内存控制器注入行故障的测试用例包括的反例故障信息后,基于该反例故障信息所确定的内存故障的类型应为非行故障。
基于上述,可以理解的,目标故障类型的测试用例可以包括两个故障信息。其中,一个故障信息用于模拟内存发生了目标故障类型的内存故障,为目标故障类型的正例。计算机设备基于该一个故障信息可以确定内存发生了目标故障类型的内存故障。
另一个故障信息用于模拟内存发生了非目标故障类型的内存故障,为目标故障类型的反例。计算机设备基于该另一个故障信息可以确定内存发生了非目标故障类型的内存故障。
需要说明的,之所以将目标故障类型的测试用例所包括的两个故障信息,分别命名为正例故障信息和反例故障信息,是为了区分基于两个故障信息分别确定的内存故障的类型是否为目标故障类型。
需要说明的,反例故障信息所包括的内容,可以参考上述正例故障信息所包括内容,例如,反例故障信息可以包括多个第二内存地址、多个第二时间、多个第二故障严重程度、多个第二故障级别等,此处不再赘述。
本实施例中,通过设置目标故障类型的测试用例还包括反例故障信息,这样,就可以通过向内存控制器注入反例故障信息,实现模拟内存的多个第二物理位置发生了非目标故障类型的内存故障,从而使得多个第二物理位置被执行故障修复操作。
可选地,多个故障类型包括随机单比特故障、重复单比特故障、行故障、列故障和存储阵列故障等。
基于此,多个故障类型的测试用例包括随机单比特故障的测试用例、重复单比特故障的测试用例、行故障的测试用例、列故障的测试用例以及存储阵列故障的测试用例等。
以下,对随机单比特故障的测试用例、重复单比特故障的测试用例、行故障的测试用例、列故障的测试用例以及存储阵列的测试用例的确定过程进行示例性介绍。
第一,随机单比特故障的测试用例:
历史故障信息包括故障信息1,基于故障信息1可以确定故障内存发生了随机单比特故障。该故障信息1包括故障地址1、故障时间1、故障严重程度1和故障级别1。
其中,故障地址1指示了故障内存上的物理位置1,该物理位置1包括不同存储阵列上的比特位。故障时间1指示了物理位置1发生内存故障的时间,故障严重程度1指示了物理位置1发生的内存故障的严重程度。故障级别1指示了物理位置1发生的内存故障为可纠正级别故障或不可纠正级别故障。
CPU可以基于故障信息1,生成随机单比特故障的测试用例。该随机单比特故障的测试用例包括随机单比特故障对应的正例故障信息(即故障信息1)以及随机单比特故障应使用的故障修复操作类型。
示例性的,随机单比特故障应使用的故障修复操作类型包括PCLS。其中,PCLS是指使用内存控制器的存储空间替换内存上发生随机单比特故障的物理位置。
第二,重复单比特故障的测试用例:
历史故障信息包括故障信息2,基于故障信息2可以确定故障内存发生了重复单比特故障。其中,故障信息2所包括的故障地址2指示了故障内存上的物理位置2,该物理位置2包括一个存储阵列的一个比特位。
可选地,CPU可以基于故障信息2,生成重复单比特故障的测试用例1。或者,CPU也可以基于故障信息1和故障信息2,生成重复单比特故障的测试用例2。
其中,重复单比特故障的测试用例2包括重复单比特故障对应的正例故障信息(即故障信息2)、随机单比特故障对应的反例故障信息(即故障信息1)以及重复单比特故障应使用的故障修复操作类型。
示例性的,重复单比特故障应使用的故障修复操作类型包括页隔离(PageOffline)。其中,页隔离是指将内存上发生重复单比特故障的物理位置所在的内存页,标记为禁止使用。
第三,行故障的测试用例:
历史故障信息包括故障信息3,基于故障信息3可以确定故障内存发生了行故障。其中,故障信息3所包括的故障地址3指示了故障内存上的物理位置3。物理位置3包括一个内存行的多个存储单元。
可选地,CPU可以基于故障信息3,生成行故障的测试用例1。或者,CPU也可以基于故障信息1和故障信息3,生成行故障的测试用例2。
示例性的,行故障应使用的故障修复操作类型包括PPR。其中,PPR是指使用内存上的冗余行替换内存上发生行故障的内存行。
第四,列故障的测试用例:
历史故障信息包括故障信息4,基于故障信息4可以确定故障内存发生了列故障。其中,故障信息4所包括的故障地址4指示了故障内存上的物理位置4。物理位置4包括一个内存列的多个存储单元。
可选地,CPU可以基于故障信息4,生成列故障的测试用例1。或者,CPU也可以基于故障信息1和故障信息4,生成列故障的测试用例2。
示例性的,列故障应使用的故障修复操作类型包括ADDDC。其中,ADDDC是指使用内存上的冗余颗粒替换内存上发生列故障的内存列或存储阵列。
第五,存储阵列故障的测试用例:
历史故障信息包括故障信息5,基于故障信息5可以确定故障内存发生了存储阵列故障。其中,故障信息5所包括的故障地址5指示了故障内存上的物理位置5。物理位置5包括一个存储阵列上的多个内存行和多个内存列。
可选地,CPU可以基于故障信息5,生成存储阵列故障的测试用例1。或者,CPU也可以基于故障信息1和故障信息5,生成存储阵列故障的测试用例2。
示例性的,存储阵列故障所需使用的故障修复操作类型包括自适应型双颗粒数据纠正(adaptive double device data correction,ADDDC)。
需要说明的,关于故障信息2、故障信息3、故障信息4和故障信息5中除故障地址外的其他信息的相关说明,可以参考上述故障信息1的相关说明,此处不再赘述。
需要说明的,上述重复单比特故障的测试用例1、行故障的测试用例1、列故障的测试用例1、存储阵列故障的测试用例1的相关说明,可以参见随机单比特故障的测试用例的相关说明,不再赘述。
需要说明的,上述行故障的测试用例2、列故障的测试用例2、存储阵列故障的测试用例2的相关说明的,可以参见重复单比特故障的测试用例2的相关说明,不再赘述。
以上,为本申请实施例的第一部分。以下,结合图6,介绍本申请实施例的第二部分。
图6是根据一示例性实施例示出的一种内存故障修复能力评估方法的流程图。示例性的,该方法包括S601-S605。
可选地,计算机设备中存储有目标故障类型的测试用例。
示例性的,目标故障类型包括随机单比特故障、重复单比特故障、行故障、列故障或存储阵列故障。
在目标故障类型为随机单比特故障时,该目标故障类型的测试用例可以包括正例故障信息和目标故障类型应使用的故障修复操作类型。
在目标故障类型为重复单比特故障、行故障、列故障或存储阵列故障时,该目标故障类型的测试用例可以包括正例故障信息和目标故障类型应使用的故障修复操作类型。或者,该目标故障类型的测试用例也可以包括正例故障信息、反例故障信息以及目标故障类型应使用的故障修复操作类型。
其中,基于反例故障信息所确定非目标故障类型包括随机单比特故障。
本申请实施例中,由于随机单比特故障通常不会影响重复单比特故障、行故障、列故障或存储阵列故障等故障类型的判断结果,因此,在目标故障类型为重复单比特故障、行故障、列故障或存储阵列故障时,设置非目标故障类型为随机单比特故障,这样,有助于避免计算机设备在判断第一物理位置上的内存故障的故障类型时,受到第二物理位置上的内存故障的干扰,从而有助于保证计算机设备对目标故障类型判断的准确性,进而有助于准确判断计算机设备是否对目标故障类型的内存故障执行目标故障修复操作类型(即目标故障类型应使用的故障修复操作类型)。
可选地,在执行S601之前,该内存故障修复能力评估方法还包括:
CPU从内存的多个内存控制器中,确定目标内存控制器;该目标内存控制器未执行过目标故障类型应使用的故障修复操作类型。
CPU获取待评估计算机设备的配置信息,以从多个内存控制器确定目标内存控制器。该配置信息包括待评估计算机设备的内存控制器的数量、内存控制器地址信息等。CPU根据该配置信息确定多个内存控制器。
示例性,多个内存控制器包括第一内存控制器,第一内存控制器可以是多个内存控制器中的任意一个内存控制器。以下,以第一内存控制器为例,对确定目标内存控制器的过程进行示例性说明。
CPU通过获取第一内存控制器所连接的RAS寄存器中的信息,确定每个故障修复操作类型的修复资源的使用情况,从而确定第一内存控制器是否可以作为目标内存控制器。
RAS寄存器中的信息包括PCLS_CFG_DATA_INFO、ADDDC_Region_Control_Register、MR Registers、HardwareCorrupted_meminfo等。
其中,PCLS_CFG_DATA_INFO用于指示PCLS修复方式的修复资源使用情况,ADDDC_Region_Control_Register用于指示ADDDC修复方式的修复资源使用情况,MR Registers用于指示PPR修复方式的修复资源使用情况,HardwareCorrupted_meminfo用于指示PageOffline修复方式的修复资源使用情况。
在一个示例中,修复资源使用情况可以是修复资源的剩余量。例如,若PCLS修复方式的修复资源的剩余量小于100%,则说明的第一内存控制器使用了PCLS修复方式。
在另一个示例中,修复资源使用情况可以是修复资源的使用量。例如,若PCLS修复方式的修复资源的使用量大于0,则说明的第一内存控制器使用了PCLS修复方式。
本实施例中,通过从多个内存控制器中确定目标内存控制器,以便于向目标内存控制器中注入目标故障类型的测试用例包括的正例故障信息。由于目标内存控制器未执行过目标故障类型应使用的故障修复操作类型,这样,不仅有助于保证目标内存控制器具有足够的目标故障修复操作类型所需的故障修复资源的,还有助于保证目标内存控制器所执行的目标故障修复操作类型是对目标故障类型的测试用例所指示的第一物理位置执行的,从而有助于保证所确定的第一物理位置实际被执行的故障修复操作类型的准确性,进而有助于保证目标故障类型的测试用例的测试结果的准确性。
S601:CPU向目标内存控制器注入目标故障类型的测试用例包括的正例故障信息。
其中,正例故障信息用于模拟内存的多个第一物理位置发生了目标故障类型的内存故障,以使得多个第一物理位置被执行故障修复操作。
相关技术中,内存故障修复原理为:内存发生内存故障后,内存控制器会收集内存故障信息,并上报给CPU。之后,CPU将接收到的内存故障信息上报给BMC,由BMC确定对内存使用的故障修复操作类型。之后,计算机设备上故障修复部件(如内存控制器或CPU等)会基于BMC确定故障修复操作类型对内存进行故障修复。
基于上述原理,CPU向待评估的计算机设备的目标内存控制器注入正例故障信息,是指CPU修改目标内存控制器的信息,以使得目标内存控制器得到正例故障信息,从而实现模拟内存发生故障,目标内存控制器获取到内存故障信息。换言之,基于上述内存故障修复原理,在CPU向目标内存控制器注入正例故障信息之后,对于目标内存控制器来说,相当于是待评估的计算机设备上的内存发生了内存故障,其获取到了该发生故障的内存的故障信息。
在一个示例中,目标故障类型为随机单比特故障,也即,目标故障类型的测试用例为随机单比特故障的测试用例。正例故障信息用于指示内存的Dimm0/Rank0/Device1的不同存储阵列发生了随机单比特故障,多个内存地址包括Dimm0/Rank0/Device1/Bank0、Dimm0/Rank0/Device1/Bank1、Dimm0/Rank0/Device1/Bank2等。换言之,Rank0/Device1上的Bank0、Bank1、Bank2上分别发生了1个内存故障。该内存故障可以是可纠正级别的故障。
示例性的,在目标故障类型的测试用例为随机单比特故障的测试用例时,目标内存控制器的地址为socke0(CPU的标识)/imc0(目标内存控制器的标识)/channel0(目标内存控制器与内存之间的内存通道的标识),则CPU向socke0/imc0/channel0注入正例故障信息,从而实现模拟待评估的计算机设备的内存的发生了单比特故障。
示例性的,为了减少内存故障的上报次数时,还可以触发socke0/imc0/channel0/(即目标内存控制器)的修复粒度为最大的16次PCLS修复,也即,在目标内存控制器执行PCLS修复方式的次数大于16次以后,才会上报需要使用PCLS修复方式的内存故障。
在另一个示例中,目标故障类型为存储阵列故障,也即,目标故障类型的测试用例为存储阵列故障的测试用例。正例故障信息用于指示内存的Dimm0/Rank0/Device1/BankGroup2/Bank2发生了存储阵列故障,多个内存地址包括Dimm0/Rank0/Device1/BankGroup2/Bank2。换言之,Dimm0/Rank0/Device1/BankGroup2/Bank2上发生了大量内存故障,该内存故障位于Bank2的多个内存行和多个内存列,该内存故障可以是可纠正级别的故障。
示例性的,在目标故障类型的测试用例为存储阵列故障时,目标内存控制器的地址为socke1/imc0/channel0,则CPU向socke1/imc0/channel0注入正例故障信息,从而实现模拟待评估的计算机设备的内存的发生了存储阵列故障。
在此基础上,目标内存控制器执行相关技术中的故障上报流程。例如,将正例故障信息发送给CPU,由CPU将正例故障信息发送给BMC。之后,BMC根据正例故障信息确定对内存执行的故障修复操作类型,并指示目标内存控制器按照所确定的故障修复操作类型,对内存进行故障修复。
目标内存控制器对内存进行故障修复后,会将故障修复信息,如故障修复操作类型、故障修复地址等信息,记录在目标内存控制器所连接的RAS寄存器中。
可选地,CPU通过故障注入工具(如einj)向目标内存控制器注入目标故障类型的测试用例包括的正例故障信息。
可选地,若故障注入工具所使用的地址为系统地址,且正例故障信息中的多个内存地址为物理地址,则S601具体包括:
步骤一:CPU将正例故障信息中的多个内存地址修改为多个系统地址。
在一些实施例中,CPU获取待评估计算机设备的内存地址映射信息。该内存地址映射信息包括内存物理地址与内存系统地址之间的映射关系。CPU根据内存地址映射信息,确定多个内存地址所对应的多个系统地址,并将正例故障信息中的多个内存地址修改为该多个内存地址所对应的多个系统地址。
步骤二:CPU向目标内存控制器注入修改后的正例故障信息。
在一些实施例中,在正例故障信息中的多个内存地址被修改为多个系统地址之后,故障注入工具向目标内存控制器该修改后的正例故障信息。
S602:CPU确定正例故障信息所对应的多个第一物理位置实际被执行的故障修复操作类型。
CPU可以通过获取目标内存控制器所连接的RAS寄存器中的信息,得到目标内存控制器所执行的故障修复操作类型以及故障修复地址,从而实现确定多个第一物理位置实际被执行的故障修复操作类型。
可选地,目标故障类型的测试用例还包括反例故障信息。基于此,内存故障修复能力评估方法还包括下述步骤一至步骤二。
步骤一:CPU向目标内存控制器注入目标故障类型的测试用例包括的反例故障信息。
其中,反例故障信息用于模拟内存的多个第二物理位置发生了非目标故障类型的内存故障,以使得多个第二物理位置被执行故障修复操作。
目标故障类型的测试用例为存储阵列的测试用例,非目标故障类型为随机单比特故障。反例故障信息用于指示内存的Dimm0/Rank0/Device1的不同存储阵列发生了随机单比特故障,例如,多个第二内存地址包括Dimm0/Rank0/Device1/Bank0、Dimm0/Rank0/Device1/Bank1、Dimm0/Rank0/Device1/Bank2等。换言之,Rank0/Device1上的Bank0、Bank1、Bank2上分别发生了1个内存故障。
基于上述,目标内存控制器的地址为socke1/imc0/channel0,因此,CPU向socke1/imc0/channel0注入反例故障信息,从而实现模拟待评估计算机设备的内存的发生了单比特故障。
需要说明的,该步骤一的实现原理和上述S601的实现原理相同,因此,该步骤一的实现过程和相关说明,可以参考上述S601,此处不再赘述。
步骤二:CPU确定反例故障信息所对应的第二物理位置实际被执行的故障修复操作类型。
需要说明的,该步骤二的实现原理和上述S602的实现原理相同,因此,该步骤二的实现过程和相关说明,可以参考上述S602,此处不再赘述。
可选地,CPU先执行上述步骤一至步骤二,再执行S601-S602。
在实施例中,由于在判断内存的故障类型时,通常是结合多个物理位置上的内存故障进行综合判断,因此,通过先向目标内存控制器注入反例故障信息,在确定多个第二物理位置实际被执行的故障修复操作类型后,再向目标内存控制器注入正例故障信息,并确定多个第一物理位置实际被执行的故障修复操作类型,这样,有助于避免计算机设备在判断多个第二物理位置上的内存故障的故障类型时,受到多个第一物理位置上的内存故障的干扰,从而有助于保证计算机设备对非目标故障类型判断的准确性,进而有助于准确判断计算机设备是否不会对非目标故障类型的内存故障执行目标测试用例中的故障修复操作类型。
S603:CPU根据多个第一物理位置实际被执行故障修复操作类型与目标故障类型应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果。
其中,目标故障类型的测试用例的测试结果用于表征计算机设备对目标故障类型的内存故障的修复能力。
可选地,在目标故障类型应使用的故障修复操作类型仅包括一个故障修复操作类型时,多个第一物理位置实际被执行故障修复操作类型与目标故障类型应使用的故障修复操作类型匹配,可以是多个第一物理位置实际被执行故障修复操作类型与目标故障类型应使用的故障修复操作类型相同。
可选地,在目标故障类型应使用的故障修复操作类型包括多个故障修复操作类型时,多个第一物理位置实际被执行故障修复操作类型与目标故障类型应使用的故障修复操作类型匹配,可以是多个第一物理位置实际被执行故障修复操作类型属于目标集合,该目标集合包括该多个故障修复操作类型。
可选地,测试结果包括修复成功或修复失败。
若多个第一物理位置实际被执行的故障修复操作类型与第一故障修复操作类型匹配,则说明计算机设备准确判断了多个第一物理位置上的内存故障的故障类型,并且对目标故障类型所执行的故障修复操作类型也是正确的。基于此,可以确定目标故障类型的测试用例的测试结果为修复成功。
若多个第一物理位置实际被执行的故障修复操作类型与第一故障修复操作类型不匹配,则说明计算机设备未能准确判断多个第一物理位置上的内存故障的故障类型,并且对第一物理位置所执行的故障修复操作类型也是错误的。基于此,可以确定目标故障类型的测试用例的测试结果为修复失败。
可选地,测试结果包括评分。
若多个第一物理位置实际被执行的故障修复操作类型与第一故障修复操作类型匹配,确定目标故障类型的测试用例的评分为目标分数。
计算机设备中预先存储有多个第一物理位置实际被执行的故障修复操作类型和第一故障修复操作类型匹配与目标分数之间的第一对应关系。在CPU确定目标故障类型的测试用例的测试结果为修复成功时,基于该第一对应关系,CPU可以确定目标故障类型的测试用例的评分为目标分数。
需要说明的,不同故障类型的测试用例所对应的目标分数可以相同,或者,也可以不同,本申请实施例对此不做限制。
示例性的,目标故障类型的测试用例为随机单比特故障的测试用例、重复单比特故障的测试用例、行故障的测试用例、列故障的测试用例或存储阵列故障的测试用例时,所对应的目标分数为20分。
示例性的,目标故障类型的测试用例为随机单比特故障的测试用例时,所对应的目标分数为10分。目标故障类型的测试用例为存储阵列故障的测试用例时,所对应的目标分数为15分,目标故障类型的测试用例为行故障的测试用例时,所对应的目标分数为20分。
可以理解的,不同故障类型的测试用例所对应的目标分数,可以根据该故障类型对计算机设备的影响程度确定,若该故障类型对计算机设备的影响程度较大,如更容易导致计算机设备宕机,则该故障类型所对应的目标分数更大。反之,则更小。
若多个第一物理位置实际被执行的故障修复操作类型与第一故障修复操作类型不匹配,确定目标故障类型的测试用例的评分为非目标分数。其中,非目标分数小于目标分数。
需要说明的,本申请实施例对非目标分数的具体数值不做限制,例如,非目标分数可以是0分,或者,可以是小于目标分数的任意一个分数。
计算机设备中预先存储有多个第一物理位置实际被执行的故障修复操作类型和第一故障修复操作类型不匹配与非目标分数之间的第二对应关系。在CPU确定目标故障类型的测试用例的测试结果为修复失败时,基于该第二对应关系,CPU可以确定目标故障类型的测试用例的评分为非目标分数。
可选地,测试结果包括修复成功和评分,或,修复失败和评分。这样,有助于提高测试结果的完善性,进而有助于用户通过测试结果准确了解计算机设备的故障修复能力。
本实施例中,在需要对计算机设备的内存故障修复能力进行评估时,通过向内存的目标内存控制器注入目标故障类型的测试用例中的正例故障信息,实现模拟内存的第一物理位置发生了目标故障类型的内存故障,从而实现触发计算机设备的内存故障修复功能,使得内存的第一物理位置被执行故障修复操作,进而实现对计算机设备的内存故障修复能力进行评估。这样,就无需手动更换故障内存和手机故障日志信息以及耗费大量的运行时间,就能够实现触发计算机设备的内存故障修复功能,因此,能够有效提高内存故障修复能力的评估效率。
可选地,在CPU执行了上述步骤一至步骤二的情况下,S603具体包括:
CPU根据内存的第一物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,以及内存的第二物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果。
若多个第一物理位置实际被执行的故障修复操作类型与目标故障类型应使用的故障修复操作类型匹配相同,且多个第二物理位置实际被执行的故障修复操作类型与目标故障类型应使用的故障修复操作类型不匹配,则说明计算机设备准确判断了多个第一物理位置上的内存故障的故障类型以及多个第二物理位置上的内存故障的故障类型,并且对目标故障类型所执行的故障修复操作类型以及非目标故障类型所执行的故障修复操作类型都是正确的。基于此,可以确定目标故障类型的测试用例的测试结果为修复成功。
若第一物理位置实际被执行的故障修复操作类型与目标故障类型应使用的故障修复操作类型匹配不匹配或第二物理位置实际被执行的故障修复操作类型与目标故障类型应使用的故障修复操作类型匹配,则说明计算机设备未能准确判断第一物理位置上的内存故障的故障类型或第二物理位置上的内存故障的故障类型,从而导致对第一物理位置执行故障修复操作类型或第二物理位置执行的故障修复操作类型是错误的。基于此,可以确定目标故障类型的测试用例的测试结果为修复失败。
S604:CPU根据目标故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果。
其中,评估结果用于表征计算机设备对目标故障类型的内存故障的修复能力。
可选地,内存故障修复能力的评估结果可以包括计算机设备的内存故障修复能力合格或计算机设备的内存故障修复能力不合格。
若目标故障类型的测试用例的测试结果为修复成功,可以确定内存故障修复能力的评估结果为合格。若目标故障类型的测试用例的测试结果为修复失败,可以确定内存故障修复能力的评估结果为不合格。
可选地,内存故障修复能力的评估结果还可以包括目标故障类型的测试用例的测试结果和/或评分。
本实施例中,通过设置内存故障修复能力的评估结果包括目标故障类型的测试用例的测试结果和/或评分,这样,有助于用户了解计算机设备对不同故障类型的内存故障的修复能力。
(可选的)S605:CPU输出计算机设备的内存故障修复能力的评估结果。
若计算机设备连接有打印设备,CPU可以向打印设备发送内存故障修复能力的评估结果,以由打印设备打印该内存故障修复能力的评估结果,从而输出内存故障修复能力的评估结果。
若计算机设备连接有显示设备,CPU向显示设备发送内存故障修复能力的评估结果,由显示设备显示该内存故障修复能力的评估结果,从而实现输出内存故障修复能力的评估结果。
若计算机设备连接有语音设备,CPU向语音设备发送内存故障修复能力的评估结果,由语音设备播放该内存故障修复能力的评估结果,从而实现输出内存故障修复能力的评估结果。
本实施例中,通过输出内存故障修复能力的评估结果,使得用户可以准确了解计算机设备的内存故障修复能力,这样,有助于用户根据当前业务对内存故障修复能力的需求,为当前业务选择合适的计算机设备,进而提高计算机设备与要运行的业务的匹配度。
以上,为本申请实施例的第二部分。以下,结合图7,介绍本申请实施例的第三部分。
图7是根据一示例性实施例示出的一种内存故障修复能力评估方法的流程图。示例性的,该方法包括S701-S705。
可选地,计算机设备中存储有多个故障类型的测试用例(以下简称为多个测试用例)。
S701:CPU向内存的多个内存控制器注入多个测试用例中的正例故障信息。
其中,不同测试用例中的正例故障信息指示了不同的故障类型。
需要说明的,不同测试用例中的正例故障信息所指示的多个第一物理位置可以部分相同,或者,也可以完全不同,本申请实施例对此不做限制。
需要说明的,一个测试用例中的正例故障信息注入内存控制器的过程,可以参考S601中的目标故障类型的测试用例中的正例故障信息注入目标内存控制器的过程,此处不再赘述。
可选地,S701包括:向多个内存控制中的不同内存控制器,注入多个测试用例中不同测试用例包括的故障信息。
其中,该故障信息包括正例故障信息。如,随机单比特故障的测试用例。或者,该故障信息包括正例故障信息和反例故障信息。如,重复单比特故障的测试用例、行故障的测试用例、列故障的测试用例以及存储阵列故障的测试用例等。
由于不同的内存控制器用于管理内存的不同内存条,因此,通过设置不同故障类型的测试用例中的故障信息注入不同的内存控制器,这样,不同故障类型的内存故障可以由不同的内存控制器处理,从而可以验证不同内存控制器的故障处理能力,进而有助于提高计算机设备的内存故障修复能力的评估准确性和全面性。
S702:CPU确定多个测试用例中每个测试用例的正例故障信息所对应的多个第一物理位置实际被执行的故障修复操作类型。
需要说明的,一个测试用例中的正例故障信息所对应的多个第一物理位置实际被执行的故障修复操作类型的确定过程,可以参考上述S602中,目标故障类型的测试用例中的正例故障信息所指示的多个第一物理位置实际被执行的故障修复操作类型的确定过程,二者原理相同,此处不再赘述。
可选地,该内存故障修复能力评估方法还包括以下步骤一至步骤二。
步骤一:CPU向内存的多个内存控制器注入多个测试用例中的反例故障信息。
需要说明的,该步骤一的实现过程和相关说明可以参考上述S601中,向目标内存控制器注入第一测试用例中的正例故障信息的实现过程和相关说明的,此处不再赘述。
步骤二:CPU确定每个测试用例中的反例故障信息所对应的第二物理位置实际被执行的故障修复操作类型。
需要说明的,步骤二的实现过程和相关说明可以参考上述S601中,目标故障类型的测试用例的正例故障信息所对应的多个第一物理位置实际被执行的故障修复操作类型的确定过程,此处不再赘述。
可选地,一个测试用例的正例故障信息和反例故障信息注入同一个内存控制器。
由于不同内存控制器用于管理内存的不同内存条,因此,将一个测试用例中的正例故障信息和反例故障信息注入同一个内存控制器,由该同一个内存控制器同时处理正例故障信息和反例故障信息,有助于提高该一个测试用例的测试结果的准确性。
S703:CPU确定多个测试用例中每个测试用例的测试结果。
需要说明的,一个测试用例的测试结果的确定过程,可以参考上述S603中的目标故障类型的测试用例的测试结果的确定过程,二者原理相同,此处不再赘述。
S704:CPU根据多个测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果。
其中,评估结果用于表征计算机设备对多个故障类型的内存故障的修复能力。
可选地,S704包括:若多个测试用例的测试结果满足预设条件,确定计算机设备的内存故障修复能力的评估结果为合格。
其中,满足预设条件可以是测试结果为修复成功的测试用例的数量大于或等于预设阈值。或者,满足预设条件可以是测试结果为目标分数的测试用例的数量大于或等于预设阈值。
在此,若测试结果为修复成功的测试用例的数量小于预设阈值,确定内存故障修复能力的评估结果为不合格。
需要说明的,本申请实施例对预设阈值的具体数值不做限制,该预设阈值可以根据多个故障类型的具体数量进行动态设置。示例性,预设阈值可以为大于多个故障类型的具体数量的二分之一,例如,多个故障类型具体为5,预设阈值为3。
可选地,S704包括:若多个的测试用例的总分数满足预设条件,确定计算机设备的内存故障修复能力的评估结果为合格。
多个测试用例的总分数可以根据多个测试用例的每个测试用例的评分确定。
其中,多个测试用例的总分数可以等于每个测试用例的评分之和。或者,多个测试用例的总分数可以等于每个测试用例的评分的平均值。
需要说明的,一个测试用例的评分的确定方式,可以根据上述S603中目标故障类型的测试用例的评分的确定过程,此处不再赘述。
或者,多个测试用例的总分数也可以根据不同测试用例的预设权重和每个测试用例的评分确定。
需要说明的,不同测试用例的预设权重可以相同,或者,也可以不同,本申请实施例对此不做限制。
可以理解的,不同故障类型的测试用例所对应的预设权重,可以根据该故障类型对计算机设备的影响程度确定,若该故障类型对计算机设备的影响程度较大,如更容易导致计算机设备宕机,则该故障类型所对应的预设权重更大。反之,则更小。
示例性的,随机单比特故障的测试用例的权重为0.1、且评分为15分,重复单比特故障的测试用例的权重为0.1、且评分为0,行故障的测试用例的权重为0.3、且评分为20分,列故障的测试用例的权重为0.2、且评分为20分,存储阵列故障的测试用例的权重为0.3,评分为30分。则多个的测试用例的总分数为0.1*15+0.1*0+0.3*20+0.2*20+0.3*30=20.5。
可选地,评估结果包括每个测试用例的测试结果和/或每个测试用例的评分。
在该实施例中,通过设置内存故障修复能力的评估结果包括每个测试用例的测试结果和/或每个测试用例的评分,有助于用户了解计算机设备对不同故障类型的内存故障的修复能力。
本实施例中,通过向内存的多个内存控制器注入多个故障类型的测试用例包括的正例故障信息,从而通过多个故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果,这样,该评估结果就能够同时表征计算机设备对多种故障类型的内存故障的修复能力,从而实现了同时评估计算机设备对多个故障类型的内存故障的修复能力,提高了计算机设备的内存故障修复能力的评估可靠性和全面性。另外,通过向多个内存控制器注入多个故障类型的测试用例,可以实现同时验证计算机设备对多个故障类型的内存故障的修复能力,这样,有助于提高内存故障的注入效率,不仅有助于提高内存故障修复能力的评估效率,还有助于提高该评估方法的兼容性。
可以理解的,在相关技术中,由于单个故障内存条的故障类型通常比较单一,在使用较少的故障内存条进行压力测试时,无法同时评估多个故障类型的修复能力。若同时使用多个故障内存条,当任意一个故障内存条出现严重故障时,又会造成系统宕机而导致评估被终止。因此,相关于相关技术,本实施例在同时评估计算机设备对多个故障类型的内存故障的修复能力时,不会造成系统宕机,有助于保证内存故障修复能力评估的顺利进行以及评估效率。
S705:参见上述S605。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,内存故障修复能力评估装置包含执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法,示例性的对内存故障修复能力评估装置进行功能模块的划分,例如,内存故障修复能力评估装置可以包括对应各个功能划分的各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
示例性的,图8示出了上述实施例中所涉及的内存故障修复能力评估装置(记为内存故障修复能力评估装置800)的一种可能的结构示意图,该内存故障修复能力评估装置800包括注入单元801、确定单元802和评估单元803。注入单元801,用于向内存的目标内存控制器注入目标故障类型的测试用例包括的正例故障信息;正例故障信息用于模拟内存的第一物理位置发生了目标故障类型的内存故障,以使得内存的第一物理位置被执行故障修复操作。例如,图6所示的S601,以及图7所示的S701。确定单元802,用于根据内存的第一物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果;测试结果用于表征计算机设备对目标故障类型的内存故障的修复能力。例如,图6所示的S603,以及图7所示的S703。评估单元803,用于根据目标故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果;评估结果用于表征计算机设备对目标故障类型的内存故障的修复能力。例如,图6所示的S604,以及图7所示的S704。
可选地,注入单元801具体用于:向内存的多个内存控制器注入多个故障类型的测试用例包括的正例故障信息;多个内存控制器包括目标内存控制器,多个故障类型的测试用例包括目标故障类型的测试用例。评估单元803具体用于:根据多个故障类型的测试用例的测试结果,确定计算机设备的内存故障修复能力的评估结果;评估结果具体用于表征计算机设备对多个故障类型的内存故障的修复能力。
可选地,注入单元801具体用于:向多个内存控制中的不同内存控制器,注入多个故障类型中的不同故障类型的测试用例包括的正例故障信息。
可选地,评估单元803具体用于:若多个故障类型的测试用例的测试结果满足预设条件,确定计算机设备的内存故障修复能力的评估结果为合格;或若多个故障类型的测试用例的总分数满足预设条件,确定计算机设备的内存故障修复能力的评估结果为合格;其中,一个故障类型的测试用例的评分根据一个故障类型的测试用例的测试结果确定。
可选地,确定单元802还用于:根据不同故障类型的测试用例的预设权重和每个故障类型的测试用例的评分,确定多个故障类型的测试用例的总分数;或根据每个故障类型的测试用例的评分,确定多个故障类型的测试用例的总分数。
可选地,确定单元802具体用于:若内存的第一物理位置实际被执行的故障修复操作类型与目标故障类型的内存故障应使用的故障修复操作类型匹配,确定目标故障类型的测试用例的测试结果为修复成功;若内存的第一物理位置实际被执行的故障修复操作类型与目标故障类型的内存故障应使用的故障修复操作类型不匹配,确定目标故障类型的测试用例的测试结果为修复失败。
可选地,注入单元801还用于:向目标内存控制器注入目标故障类型的测试用例的反例故障信息;反例故障信息用于模拟内存的第二物理位置发生了非目标故障类型的内存故障,以使得内存的第二物理位置被执行故障修复操作;确定单元802还用于:根据内存的第一物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,以及内存的第二物理位置实际被执行的故障修复操作类型和目标故障类型应使用的故障修复操作类型是否匹配,确定目标故障类型的测试用例的测试结果。
可选地,确定单元802具体用于:若内存的第一物理位置实际被执行的故障修复操作类型与目标故障类型的内存故障应使用的故障修复操作类型匹配、且内存的第二物理位置实际被执行的故障修复操作类型与目标故障类型的内存故障应使用的故障修复操作类型不匹配,确定目标故障类型的测试用例的测试结果为修复成功。
可选地,注入单元801具体用于:若目标内存控制器未执行过目标故障类型应使用的故障修复操作类型,向目标内存控制器注入目标故障类型的测试用例包括的正例故障信息。
可选地,目标故障类型的测试用例还包括目标故障类型应使用的故障修复操作类型。
可选地,正例故障信息包括内存地址、发生时间、故障严重程度和故障级别中的一个或多个;内存地址指示了内存的第一物理位置;发生时间用于指示第一物理位置发生内存故障的时间;故障严重程度用于指示第一物理位置发生的内存故障的严重程度;故障级别用于指示第一物理位置发生的内存故障的故障级别,故障级别包括可纠正级别故障或不可纠正级别故障。
可选地,评估单元803还用于:输出计算机设备的内存故障修复能力的评估结果。
可选地,目标故障类型的测试用例,是根据故障内存的历史故障信息确定的,历史故障信息包括用于确定故障内存发生了目标故障类型的内存故障的故障信息。
关于上述可选方式的具体描述可以参见前述的方法实施例,此处不再赘述。此外,上述提供的任一种内存故障修复能力评估装置800的解释以及有益效果的描述均可参考上述对应的方法实施例,不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,处理器与存储器连接,存储器存储有计算机执行指令,处理器执行该计算机执行指令时实现上述实施例中的数据处理方法。本申请实施例对计算机设备的具体形式不作任何限制。例如,计算机设备具体可以是终端装置,也可以是网络设备。其中,终端装置可以被称为:终端、用户设备(user equipment,UE)、终端设备、接入终端、用户单元、用户站、移动站、远方站、远程终端、移动设备、用户终端、无线通信设备、用户代理或用户装置等。终端装置具体可以是手机、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等。网络设备具体可以是服务器等。其中,服务器可以是一个物理或逻辑服务器,也可以是有两个或两个以上分担不同职责的物理或逻辑服务器、相互协同来实现服务器的各项功能。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当该计算机程序在计算机上运行时,使得该计算机执行上文提供的任一种计算机设备所执行的方法。
关于上述提供的任一种计算机可读存储介质中相关内容的解释及有益效果的描述,均可以参考上述对应的实施例,此处不再赘述。
本申请实施例还提供了一种芯片。该芯片中集成了用于实现上述计算机设备的功能的控制电路和一个或者多个端口。可选的,该芯片支持的功能可以参考上文,此处不再赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可通过程序来指令相关的硬件完成。所述的程序可以存储于一种计算机可读存储介质中。上述提到的存储介质可以是只读存储器,随机接入存储器等。上述处理单元或处理器可以是中央处理器,通用处理器、特定集成电路(application specific integrated circuit,ASIC)、微处理器(digital signal processor,DSP),现场可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
本申请实施例还提供了一种包含指令的计算机程序产品,当该指令在计算机上运行时,使得计算机执行上述实施例中的任意一种方法。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如SSD)等。
应注意,本申请实施例提供的上述用于存储计算机指令或者计算机程序的器件,例如但不限于,上述存储器、计算机可读存储介质和通信芯片等,均具有非易失性(non-transitory)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (16)
1.一种内存故障修复能力评估方法,其特征在于,用于计算机设备,所述计算机设备包括内存和处理器,所述方法由所述处理器执行;所述方法包括:
向所述内存的目标内存控制器注入目标故障类型的测试用例包括的正例故障信息;所述正例故障信息用于模拟所述内存的第一物理位置发生了所述目标故障类型的内存故障,以使得所述内存的第一物理位置被执行故障修复操作;
根据所述内存的第一物理位置实际被执行的故障修复操作类型和所述目标故障类型应使用的故障修复操作类型是否匹配,确定所述目标故障类型的测试用例的测试结果;所述测试结果用于表征所述计算机设备对所述目标故障类型的内存故障的修复能力;
根据所述目标故障类型的测试用例的测试结果,确定所述计算机设备的内存故障修复能力的评估结果;所述评估结果用于表征所述计算机设备对所述目标故障类型的内存故障的修复能力。
2.根据权利要求1所述的方法,其特征在于,
所述向所述内存的目标内存控制器注入目标故障类型的测试用例包括的正例故障信息,具体为:向所述内存的多个内存控制器注入多个故障类型的测试用例包括的正例故障信息;所述多个内存控制器包括所述目标内存控制器,所述多个故障类型的测试用例包括所述目标故障类型的测试用例;
所述根据所述目标故障类型的测试用例的测试结果,确定所述计算机设备的内存故障修复能力的评估结果,具体为:根据所述多个故障类型的测试用例的测试结果,确定所述计算机设备的内存故障修复能力的评估结果;所述评估结果具体用于表征所述计算机设备对多个故障类型的内存故障的修复能力。
3.根据权利要求2所述的方法,其特征在于,所述向所述内存的多个内存控制器注入多个故障类型的测试用例包括的正例故障信息,包括:
向所述多个内存控制中的不同内存控制器,注入所述多个故障类型中的不同故障类型的测试用例包括的正例故障信息。
4.根据权利要求2或3所述的方法,其特征在于,根据所述多个故障类型的测试用例的测试结果,确定所述计算机设备的内存故障修复能力的评估结果,包括:
若所述多个故障类型的测试用例的测试结果满足预设条件,确定所述计算机设备的内存故障修复能力的评估结果为合格;或
若所述多个故障类型的测试用例的总分数满足预设条件,确定所述计算机设备的内存故障修复能力的评估结果为合格;其中,一个故障类型的测试用例的评分根据所述一个故障类型的测试用例的测试结果确定。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据不同故障类型的测试用例的预设权重和每个故障类型的测试用例的评分,确定所述多个故障类型的测试用例的总分数;或
根据每个故障类型的测试用例的评分,确定所述多个故障类型的测试用例的总分数。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述根据所述内存的第一物理位置实际被执行的故障修复操作类型和所述目标故障类型应使用的故障修复操作类型是否匹配,确定所述目标故障类型的测试用例的测试结果,包括:
若所述内存的第一物理位置实际被执行的故障修复操作类型与所述目标故障类型的内存故障应使用的故障修复操作类型匹配,确定所述目标故障类型的测试用例的测试结果为修复成功;
若所述内存的第一物理位置实际被执行的故障修复操作类型与所述目标故障类型的内存故障应使用的故障修复操作类型不匹配,确定所述目标故障类型的测试用例的测试结果为修复失败。
7.根据权利要求1-6中任一项所述的方法,其特征在于,
所述方法还包括:向所述目标内存控制器注入所述目标故障类型的测试用例的反例故障信息;所述反例故障信息用于模拟所述内存的第二物理位置发生了非目标故障类型的内存故障,以使得所述内存的第二物理位置被执行故障修复操作;
根据所述内存的第一物理位置实际被执行的故障修复操作类型和所述目标故障类型应使用的故障修复操作类型是否匹配,确定所述目标故障类型的测试用例的测试结果,包括:根据所述内存的第一物理位置实际被执行的故障修复操作类型和所述目标故障类型应使用的故障修复操作类型是否匹配,以及所述内存的第二物理位置实际被执行的故障修复操作类型和所述目标故障类型应使用的故障修复操作类型是否匹配,确定所述目标故障类型的测试用例的测试结果。
8.根据权利要求7所述的方法,其特征在于,根据所述内存的第一物理位置实际被执行的故障修复操作类型和所述目标故障类型应使用的故障修复操作类型是否匹配,以及所述内存的第二物理位置实际被执行的故障修复操作类型和所述目标故障类型应使用的故障修复操作类型是否匹配,确定所述目标故障类型的测试用例的测试结果,包括:
若所述内存的第一物理位置实际被执行的故障修复操作类型与所述目标故障类型的内存故障应使用的故障修复操作类型匹配、且所述内存的第二物理位置实际被执行的故障修复操作类型与所述目标故障类型的内存故障应使用的故障修复操作类型不匹配,确定所述目标故障类型的测试用例的测试结果为修复成功。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述向所述内存的目标内存控制器注入目标故障类型的测试用例包括的正例故障信息,包括:
若所述目标内存控制器未执行过所述目标故障类型应使用的故障修复操作类型,向所述目标内存控制器注入所述目标故障类型的测试用例包括的正例故障信息。
10.根据权利要求1-9中任一项所述的方法,其特征在于,
所述目标故障类型的测试用例还包括所述目标故障类型应使用的故障修复操作类型。
11.根据权利要求1-10中任一项所述的方法,其特征在于,
所述正例故障信息包括内存地址、发生时间、故障严重程度和故障级别中的一个或多个;所述内存地址指示了所述内存的第一物理位置;所述发生时间用于指示所述第一物理位置发生内存故障的时间;所述故障严重程度用于指示所述第一物理位置发生的内存故障的严重程度;所述故障级别用于指示所述第一物理位置发生的内存故障的故障级别,所述故障级别包括可纠正级别故障或不可纠正级别故障。
12.根据权利要求1-11中任一项所述的方法,其特征在于,所述方法还包括:
输出所述计算机设备的内存故障修复能力的评估结果。
13.根据权利要求1-12中任一项所述的方法,其特征在于,
所述目标故障类型的测试用例,是根据故障内存的历史故障信息确定的,所述历史故障信息包括用于确定所述故障内存发生了目标故障类型的内存故障的故障信息。
14.一种内存故障修复能力评估装置,其特征在于,包括:
注入单元,用于向所述内存的目标内存控制器注入目标故障类型的测试用例包括的正例故障信息;所述正例故障信息用于模拟所述内存的第一物理位置发生了所述目标故障类型的内存故障,以使得所述内存的第一物理位置被执行故障修复操作;
确定单元,用于根据所述内存的第一物理位置实际被执行的故障修复操作类型和所述目标故障类型应使用的故障修复操作类型是否匹配,确定所述目标故障类型的测试用例的测试结果;所述测试结果用于表征所述计算机设备对所述目标故障类型的内存故障的修复能力;
评估单元,用于根据所述目标故障类型的测试用例的测试结果,确定所述计算机设备的内存故障修复能力的评估结果;所述评估结果用于表征所述计算机设备对所述目标故障类型的内存故障的修复能力。
15.一种计算机设备,其特征在于,包括:处理器;
所述处理器与存储器连接,所述存储器用于存储计算机执行指令,所述处理器执行所述计算机执行指令,以使所述计算机设备实现如权利要求1-13中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,用于存储计算机指令,当所述计算机指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1-13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081259.2A CN116302740A (zh) | 2023-01-31 | 2023-01-31 | 内存故障修复能力评估方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081259.2A CN116302740A (zh) | 2023-01-31 | 2023-01-31 | 内存故障修复能力评估方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116302740A true CN116302740A (zh) | 2023-06-23 |
Family
ID=86777049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310081259.2A Pending CN116302740A (zh) | 2023-01-31 | 2023-01-31 | 内存故障修复能力评估方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116302740A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035140A (zh) * | 2024-04-11 | 2024-05-14 | 中诚华隆计算机技术有限公司 | 一种服务器内存通道的切换系统 |
-
2023
- 2023-01-31 CN CN202310081259.2A patent/CN116302740A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035140A (zh) * | 2024-04-11 | 2024-05-14 | 中诚华隆计算机技术有限公司 | 一种服务器内存通道的切换系统 |
CN118035140B (zh) * | 2024-04-11 | 2024-06-11 | 中诚华隆计算机技术有限公司 | 一种服务器内存通道的切换系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5523562B2 (ja) | ストレージデバイス内のエラーデータを追跡するシステムおよび方法 | |
US8020074B2 (en) | Method for auto-correction of errors in a RAID memory system | |
US10204698B2 (en) | Method to dynamically inject errors in a repairable memory on silicon and a method to validate built-in-self-repair logic | |
US7877666B2 (en) | Tracking health of integrated circuit structures | |
US20110154097A1 (en) | Field replaceable unit failure determination | |
US8433950B2 (en) | System to determine fault tolerance in an integrated circuit and associated methods | |
WO2024012094A1 (zh) | 故障处理方法及计算设备 | |
US20110289349A1 (en) | System and Method for Monitoring and Repairing Memory | |
US8566672B2 (en) | Selective checkbit modification for error correction | |
CN111078459B (zh) | 半导体芯片的测试方法、装置及系统 | |
US20190019569A1 (en) | Row repair of corrected memory address | |
US7624301B2 (en) | Method and apparatus for identifying failure module | |
Du et al. | Predicting uncorrectable memory errors for proactive replacement: An empirical study on large-scale field data | |
CN116302740A (zh) | 内存故障修复能力评估方法、装置及计算机设备 | |
CN114203253A (zh) | 芯片的存储器故障修复装置和芯片 | |
CN114730607A (zh) | 一种存储器故障修复方法及装置 | |
US20230214295A1 (en) | Error rates for memory with built in error correction and detection | |
CN106067326B (zh) | 错误校正电路及包括其的半导体存储器件 | |
US20200389187A1 (en) | Method of training artificial intelligence to execute decoding program of low density parity check code | |
CN115421946A (zh) | 内存故障处理方法、装置和存储介质 | |
CN115658373A (zh) | 基于服务器的内存处理方法和装置、处理器及电子设备 | |
CN115421947A (zh) | 内存故障处理方法、装置和存储介质 | |
CN115080331A (zh) | 故障处理方法及计算设备 | |
CN110544504A (zh) | 一种关于内存adddc功能的测试方法、系统及设备 | |
CN115686901B (zh) | 内存故障分析方法及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |