CN113568777A - 一种故障处理方法、装置、网络芯片、设备及存储介质 - Google Patents

一种故障处理方法、装置、网络芯片、设备及存储介质 Download PDF

Info

Publication number
CN113568777A
CN113568777A CN202111132311.XA CN202111132311A CN113568777A CN 113568777 A CN113568777 A CN 113568777A CN 202111132311 A CN202111132311 A CN 202111132311A CN 113568777 A CN113568777 A CN 113568777A
Authority
CN
China
Prior art keywords
ddr
fault
network chip
particle
particles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111132311.XA
Other languages
English (en)
Other versions
CN113568777B (zh
Inventor
代辉辉
罗彬�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Semiconductor Technology Co Ltd
Original Assignee
New H3C Semiconductor Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Semiconductor Technology Co Ltd filed Critical New H3C Semiconductor Technology Co Ltd
Priority to CN202111132311.XA priority Critical patent/CN113568777B/zh
Publication of CN113568777A publication Critical patent/CN113568777A/zh
Application granted granted Critical
Publication of CN113568777B publication Critical patent/CN113568777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/12Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
    • G11C29/38Response verification devices
    • G11C29/42Response verification devices using error correcting codes [ECC] or parity check
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/12Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
    • G11C29/44Indication or identification of errors, e.g. for repair
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请实施例提供了一种故障处理方法、装置、网络芯片、设备及存储介质,涉及网络芯片技术领域,该方法包括:在网络芯片运行过程中,对网络芯片连接的各双倍数据率DDR颗粒进行错误检查和纠正ECC检测,并分别确定各DDR颗粒存在的双比特错误数量;如果存在DDR颗粒的双比特错误数量达到预设数量阈值,则确定该DDR颗粒为故障DDR颗粒,记录故障DDR颗粒标识;重启网络芯片,基于已记录的故障DDR颗粒标识生成异常信息,以使得与网络芯片连接的主机CPU在对网络芯片进行初始化配置时,禁用异常信息所指示的故障DDR颗粒。可以解决当网络芯片中存在DDR颗粒出现故障时,网络芯片无法正常使用的问题。

Description

一种故障处理方法、装置、网络芯片、设备及存储介质
技术领域
本申请涉及网络芯片技术领域,特别是涉及一种故障处理方法、装置、网络芯片、设备及存储介质。
背景技术
网络芯片用于在通信网络中处理网络数据流量。随着网络技术的发展,网络芯片需处理的流量越来越大,因此,网络芯片需要的双倍数据率同步动态随机存取存储器(Double Data Rate Synchronous Dynamic Random Access Memory, DDR SDRAM)也越来越大。目前,每个网络芯片可以外接多颗DDR颗粒,网络芯片需处理的报文数据被存储在外接的多颗DDR颗粒中。
DDR颗粒存在一定的生命周期,DDR颗粒可能因为温度、湿度、碰撞等各种因素出现故障。一旦网络芯片连接的一颗DDR颗粒出现故障,就会导致整个网络芯片无法正常运行。
发明内容
本申请实施例的目的在于提供一种故障处理方法、装置、网络芯片、设备及存储介质,用以解决当网络芯片中存在DDR颗粒出现故障时,网络芯片无法正常使用的问题。具体技术方案如下:
第一方面,本申请实施例公开了一种故障处理方法,所述方法应用于网络芯片,所述方法包括:
在所述网络芯片运行过程中,对所述网络芯片连接的各双倍数据率DDR颗粒进行错误检查和纠正ECC检测,并分别确定各DDR颗粒存在的双比特错误数量;
如果存在DDR颗粒的双比特错误数量达到预设数量阈值,则确定该DDR颗粒为故障DDR颗粒,记录故障DDR颗粒标识;
重启所述网络芯片,基于已记录的故障DDR颗粒标识生成异常信息,以使得与所述网络芯片连接的主机CPU在对所述网络芯片进行初始化配置时,禁用所述异常信息所指示的故障DDR颗粒。
在一种可能的实现方式中,在所述基于已记录的故障DDR颗粒标识生成异常信息之前,所述方法还包括:
在所述网络芯片初始化过程中,对所述网络芯片连接的各DDR颗粒进行内部自测BIST检测;
如果通过BIST检测确定存在故障DDR颗粒,则记录故障DDR颗粒的标识。
在一种可能的实现方式中,所述基于已记录的故障DDR颗粒标识生成异常信息,包括:
获取已记录的通过ECC检测得到的故障DDR颗粒标识,以及通过BIST检测得到的故障DDR颗粒标识;
对通过ECC检测得到的故障DDR颗粒标识和通过BIST检测得到的故障DDR颗粒标识进行比较,确定所述异常信息。
在一种可能的实现方式中,所述对通过ECC检测得到的故障DDR颗粒的标识和通过BIST检测得到的故障DDR颗粒的标识进行比较,确定所述异常信息,包括:
将通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的交集作为所述异常信息;或者,
将通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的并集作为所述异常信息。
在一种可能的实现方式中,所述基于已记录的故障DDR颗粒标识生成异常信息,包括:
将通过ECC检测得到的故障DDR颗粒标识作为所述异常信息;或者,
将通过BIST检测得到的故障DDR颗粒标识作为所述异常信息。
在一种可能的实现方式中,所述方法还包括:
在所述网络芯片初始化过程中,接收所述主机CPU配置的所述网络芯片中各处理模块与DDR物理地址之间的映射关系,所述DDR物理地址不包括所述异常信息指示的故障DDR颗粒的物理地址;
在所述网络芯片初始化完成后,基于各处理模块与DDR物理地址之间的映射关系,控制各处理模块访问DDR颗粒。
第二方面,本申请实施例公开了一种故障处理方法,所述方法应用于主机CPU,所述方法包括:
获取所述主机CPU连接的网络芯片记录的异常信息,所述异常信息用于指示故障DDR颗粒,所述异常信息为所述网络芯片基于已记录的故障DDR颗粒标识生成的,所述网络芯片已记录的故障DDR颗粒标识包括所述网络芯片通过ECC检测确定的双比特错误数量达到预设数量阈值的DDR颗粒的标识;
在对所述网络芯片进行初始化配置时,禁用所述异常信息所指示的故障DDR颗粒。
第三方面,本申请实施例公开了一种故障处理装置,所述装置设置于网络芯片中,所述装置包括:
第一检测模块,用于在所述网络芯片运行过程中,对所述网络芯片连接的各双倍数据率DDR颗粒进行错误检查和纠正ECC检测,并分别确定各DDR颗粒存在的双比特错误数量;
故障确定模块,用于如果存在DDR颗粒的双比特错误数量达到预设数量阈值,则确定该DDR颗粒为故障DDR颗粒;
故障记录模块,用于记录所述故障确定模块确定的故障DDR颗粒的标识;
生成模块,用于重启所述网络芯片,基于已记录的故障DDR颗粒标识生成异常信息,以使得与所述网络芯片连接的主机CPU在对所述网络芯片进行初始化配置时,禁用所述异常信息所指示的故障DDR颗粒。
第四方面,本申请实施例公开了一种故障处理装置,所述装置设置于主机CPU中,所述装置包括:
获取模块,用于获取所述主机CPU连接的网络芯片记录的异常信息,所述异常信息用于指示故障DDR颗粒,所述异常信息为所述网络芯片基于已记录的故障DDR颗粒标识生成的,所述网络芯片已记录的故障DDR颗粒标识包括所述网络芯片通过ECC检测确定的双比特错误数量达到预设数量阈值的DDR颗粒的标识;
配置模块,用于在对所述网络芯片进行初始化配置时,禁用所述异常信息所指示的故障DDR颗粒。
第五方面,本申请实施例还公开了一种网络设备,包括网络芯片、主机CPU以及与所述网络芯片连接的多个DDR颗粒;
所述网络芯片用于实现上述第一方面所述的故障处理方法步骤;
所述主机CPU用于实现上述第二方面所述的故障处理方法步骤。
第六方面,本申请实施例公开了一种网络芯片,所述网络芯片用于实现上述第一方面所述的故障处理方法步骤。
第七方面,本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面或第二方面所述的故障处理方法步骤。
采用上述技术方案,可以在网络芯片运行过程中,对网络芯片连接的各个DDR颗粒进行ECC检测,如果检测到存在故障的DDR颗粒,可以记录故障DDR颗粒标识,并触发对网络芯片的重启,基于已记录的故障DDR颗粒标识成异常信息。进而主机CPU会在对网络芯片进行初始化配置时,禁用异常信息所指示的故障DDR颗粒,如此,相当于隔离了故障DDR颗粒,使得异常信息所指示的故障DDR颗粒不会影响网络芯片对其他DDR颗粒的使用,避免了因少数故障DDR颗粒故障导致整个网络芯片无法正常运行的问题。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本申请实施例提供的一种网络设备的结构示意图;
图2为本申请实施例提供的一种故障处理方法的流程图;
图3为本申请实施例提供的另一种故障处理方法的流程图;
图4为本申请实施例提供的一种故障处理方法的示例性流程图;
图5为本申请实施例提供的另一种故障处理方法的流程图;
图6为本申请实施例提供的另一种故障处理方法的流程图;
图7为本申请实施例提供的一种网络芯片的处理模块的访问通路的示例性示意图;
图8为本申请实施例提供的一种故障处理方法的示例性流程图;
图9为本申请实施例提供的一种故障处理装置的结构示意图;
图10为本申请实施例提供的另一种故障处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的故障处理方法可以应用于网络设备中的网络芯片(networking processor,NP),该网络设备可以为路由器、交换机等具有网络芯片的设备。参见图1,图1为本申请实施例提供的一种网络设备的架构图,该网络设备包括:主机中央处理器(Central Processing Unit,CPU),网络芯片,以及与网络芯片连接的多个DDR颗粒(DDR1、DDR2和DDR3),本申请实施例以网络芯片外接3个DDR颗粒为例进行说明,实际实现中网络芯片外接的DDR颗粒数量不限于此。
其中,主机CPU通过高速串行计算机扩展总线标准(peripheral componentinterconnect express,PCIE)连接网络芯片,主机CPU控制层的第三方软件开发工具包(Software Development Kit,SDK)可以配置网络芯片中各处理模块与DDR物理地址之间的映射关系,即主机CPU可以配置网络芯片接收到的数据报文在DDR颗粒中的存储分布。主机CPU可以通过PCIE将上述映射关系写入网络芯片的寄存器中,进而网络芯片可以根据寄存器中存储的映射关系将数据报文存储在相应的DDR颗粒中。
结合图1所示的网络设备,本申请实施例提供了一种故障处理方法,该方法可以应用于网络芯片,如图2所示,该方法包括以下步骤:
S201、在网络芯片运行过程中,对网络芯片连接的各DDR颗粒进行错误检查和纠正(Error Checking and Correction,ECC)检测,并分别确定各DDR颗粒存在的双比特错误数量。
在本申请实施例中,可以通过软件为网络芯片添加ECC检错中断的功能,网络芯片的内存控制器(Memory Controller)可以对网络芯片外接的各DDR颗粒进行ECC检测,当检测到DDR颗粒中的数据发生单比特错误时,会触发网络芯片内部的ECC保护机制,网络芯片内部的ECC保护机制可以纠正该单比特错误,不会影响网络芯片内程序的运行。其中,单比特错误指一个比特的数据发生错误。
当检测到DDR颗粒中的数据发生双比特错误(double error)时,网络芯片无法对双比特错误进行纠正,网络芯片可基于检测到的双比特错误确定各DDR颗粒中存在的双比特错误数量。其中,两个或两个以上比特的数据错误统称为双比特错误。
S202、如果存在DDR颗粒的双比特错误数量达到预设数量阈值,则确定该DDR颗粒为故障DDR颗粒,记录故障DDR颗粒标识。
网络芯片可以对每颗DDR颗粒的双比特错误数量进行计数,若网络芯片外接的某颗DDR颗粒的双比特错误已达到预设数量阈值,则可确定该DDR颗粒发生故障。
一种实施方式中,网络芯片可以将通过ECC检测确定的故障DDR颗粒标识缓存在第一指定位置,比如缓存在网络芯片的flash0(flash地址0)中。
其中,通过ECC检测确定的故障DDR颗粒的数量可能是一个,也可能是多个。预设数量阈值可以根据经验值设置。
作为示例,假设预设数量阈值为10,网络芯片外接4个DDR颗粒,分别为DDR1、DDR2、DDR3和DDR4。网络芯片通过ECC检测检测到DDR1、DDR2和DDR3和DDR4发生双比特错误数量分别为0、5、10、11,此时网络芯片会将DDR3和DDR4确定为故障DDR颗粒。
S203、重启网络芯片,基于已记录的故障DDR颗粒标识生成异常信息,以使得与网络芯片连接的主机CPU在对网络芯片进行初始化配置时,禁用异常信息所指示的故障DDR颗粒。
其中,异常信息用于指示需要被禁用的故障DDR颗粒,生成异常信息的方法将在后续实施例中进行详细说明。
本申请实施例提供的故障处理方法,可以在网络芯片运行过程中,对网络芯片连接的各个DDR颗粒进行ECC检测,如果检测到存在故障的DDR颗粒,可以记录故障DDR颗粒标识,并触发对网络芯片的重启,基于已记录的故障DDR颗粒标识成异常信息。进而主机CPU会在对网络芯片进行初始化配置时,禁用异常信息所指示的故障DDR颗粒,如此,相当于隔离了故障DDR颗粒,使得异常信息所指示的故障DDR颗粒不会影响网络芯片对其他DDR颗粒的使用,避免了因少数故障DDR颗粒故障导致整个网络芯片无法正常运行的问题。
在本申请的一个实施例中,在图2对应实施例的基础上,还可以对各DDR颗粒进行内部自测(Built-in Self-Test,BIST)检测,如图3所示,该方法具体包括以下步骤:
S301、在网络芯片运行过程中,对网络芯片连接的各DDR颗粒进行ECC检测,并分别确定各DDR颗粒存在的双比特错误数量。
S302、如果存在DDR颗粒的双比特错误数量达到预设数量阈值,则确定该DDR颗粒为故障DDR颗粒,记录故障DDR颗粒标识。
其中,S301-S302与S201-S202相同,可参考S201-S202中的相关描述,此处不再赘述。
S303、重启网络芯片。
S304、在网络芯片初始化过程中,对网络芯片连接的各DDR颗粒进行BIST检测。
在网络芯片重启或启动过程的初始化阶段,网络芯片可以对自身连接的DDR颗粒进行BIST检测,如果没有检测到故障DDR颗粒,则网络芯片正常启动。
S305、如果通过BIST检测确定存在故障DDR颗粒,则记录故障DDR颗粒标识。
其中,通过BIST检测确定的故障DDR颗粒的数量可能是一个,也可能是多个。
一种实施方式中,网络芯片可以将通过BIST检测确定的故障DDR颗粒标识缓存在第二指定位置,比如缓存在网络芯片的flash1(flash地址1)中。
可以理解的,在网络芯片初始化过程中,网络芯片记录的故障DDR颗粒标识可能既包括通过ECC检测方式检测到的故障DDR颗粒的标识,又包括通过BIST检测方式检测到的故障DDR颗粒的标识。在此基础上,基于已记录的故障DDR颗粒标识生成异常信息可以实现为S306-S307。
S306、获取已记录的通过ECC检测得到的故障DDR颗粒标识,以及通过BIST检测得到的故障DDR颗粒标识。
S307、对通过ECC检测得到的故障DDR颗粒标识和通过BIST检测得到的故障DDR颗粒标识进行比较,确定异常信息。
其中,本步骤包括以下两种实现方式:
方式一、将通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的交集作为异常信息。
例如,若通过ECC检测得到的故障DDR颗粒包括DDR颗粒1和DDR颗粒2,通过BIST检测得到的故障DDR颗粒包括DDR颗粒2和DDR颗粒3,则异常信息指示的故障DDR颗粒为DDR颗粒2。
采用方式一可以更加准确地确定出故障DDR颗粒,避免因ECC检测或BIST检测不准确导致的对DDR颗粒故障的误判。
方式二、将通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的并集作为所述异常信息。
例如,若通过ECC检测得到的故障DDR颗粒包括DDR颗粒1和DDR颗粒2;通过BIST检测得到的故障DDR颗粒包括DDR颗粒2和DDR颗粒3,则异常信息指示的故障DDR颗粒包括DDR颗粒1、DDR颗粒2和DDR颗粒3。
采用方式二可以尽可能全面地将故障DDR颗粒筛选出来,进一步提高了网络芯片的安全性。在网络芯片外接的DDR颗粒较多的情况下采用方式三,可以在不影响网络芯片的性能的前提下,提高网络芯片的安全性。
在本申请另一实施例中,基于已记录的故障DDR颗粒标识生成异常信息,还可以实现为:
将通过ECC检测得到的故障DDR颗粒标识作为异常信息,或者将通过BIST检测得到的故障DDR颗粒作为异常信息。
如果在实际应用场景中发现ECC检测对故障DDR颗粒的检测结果更加准确,则会预先将异常信息生成方式设置为:将通过ECC检测得到的故障DDR颗粒标识作为异常信息。网络芯片可以从flash0中获取通过ECC检测得到的故障DDR颗粒的标识,并确定异常信息指示的故障DDR颗粒为通过ECC检测得到的故障DDR颗粒。
如果在实际应用场景中发现BIST检测对故障DDR颗粒的检测结果更加准确,则会预先将异常信息生成方式设置为:将通过BIST检测得到的故障DDR颗粒作为异常信息。网络芯片可以从flash1中获取通过BIST检测得到的故障DDR颗粒的标识,并确定异常信息指示的故障DDR颗粒为通过BIST检测得到的故障DDR颗粒。
在本申请另一实施例中,在上述任一实施例的基础上,该方法还包括:
在网络芯片初始化过程中,接收主机CPU配置的网络芯片中各处理模块与DDR物理地址之间的映射关系,其中,映射关系中的DDR物理地址不包括异常信息指示的故障DDR颗粒的物理地址;
在网络芯片初始化完成后,基于各处理模块与DDR物理地址之间的映射关系,控制各处理模块访问DDR颗粒。
在S203中,主机CPU在对网络芯片进行初始化配置时,可以配置网络芯片中各处理模块与DDR物理地址之间的映射关系,相当于将非故障DDR颗粒的物理地址分配给网络芯片的各处理模块,该非故障DDR颗粒为除异常信息知识的故障DDR颗粒之外的DDR颗粒。相应地,网络芯片可以接收到该映射关系,并在完成初始化后,根据该映射关系控制各处理模块访问DDR颗粒。因该映射关系中不包括故障DDR颗粒的物理地址,也就避免了网络芯片的处理模块访问故障DDR颗粒,实现了对故障DDR颗粒的隔离,可以提高网络芯片的可用性,保证网络芯片业务功能的正常运行。
以下结合图4对故障处理方法进行说明,如图4所示,该方法包括:
S401、NP芯片启动。
S402、NP芯片通过BIST检测外接的各DDR颗粒。
S403、判断DDR颗粒是否存在故障。
如果检测到存在故障的DDR颗粒,则执行S404;如果未检测到存在故障的DDR颗粒,则执行S407。
S404、NP芯片将检测得到的异常信息B写入Np flash1。
其中,异常信息B为通过BIST检测方式检测到的故障DDR颗粒的标识。
S405、NP芯片从Np flash0获取异常信息A。
其中,异常信息A为通过ECC检测方式检测到的故障DDR颗粒的标识。
S406、NP芯片将异常信息A||B写入寄存器,根据主机CPU的下发的映射关系,禁止处理模块访问A||B。
其中,异常信息A||B为通过上述异常信息生成方式生成的异常信息。
网络芯片根据异常信息A和异常信息B得到异常信息A||B,并存储在寄存器中,主机CPU可以从寄存器中获取到异常信息A||B,并根据异常信息A||B设置网络芯片访问DDR颗粒的通路,使网络芯片的各处理模块不去访问故障DDR颗粒。
上述S402-S406为NP芯片的系统初始化过程,在NP芯片系统初始化成功后,执行步骤S407。
S407、系统初始化成功,NP芯片进行ECC中断检测。
在网络芯片正常运行过程中,可以实时对网络芯片外接的各个DDR颗粒进行ECC检测。
S408、NP芯片分别判断检测到的每个DDR颗粒的双比特错误是否大于预设数量阈值。
如果否,即各DDR颗粒的双比特错误数量均小于预设数量阈值,则执行步骤S409;如果是,即存在DDR颗粒的双比特错误数量达到预设数量阈值,则执行S410。
S409、NP芯片正常运行。
S410、触发ECC中断,将异常信息A写入NP flash0。
此时异常信息A为此次ECC检测到的故障DDR颗粒的标识。
S411、NP芯片重启。
NP芯片触发重启后,可以重新执行图4所示的方法流程,以实现对故障DDR颗粒的屏蔽。
结合图1所示的网络设备,与上述实施例对应,本申请还提供了一种故障处理方法,该方法应用于主机CPU。如图5所示,该方法包括以下步骤:
S501、获取主机CPU连接的网络芯片记录的异常信息。
其中,主机CPU在对网络芯片进行初始化的过程中,需从网络芯片的寄存器中获取网络芯片记录的异常信息。
其中,异常信息为网络芯片基于已记录的故障DDR颗粒标识生成的,异常信息用于指示故障DDR颗粒。
网络芯片已记录的故障DDR颗粒标识包括网络芯片通过ECC检测确定的双比特错误数量达到预设数量阈值的DDR颗粒的标识。
S502、在对网络芯片进行初始化配置时,禁用异常信息所指示的故障DDR颗粒。
本申请实施例提供的故障处理方法,主机CPU可以获取网络芯片记录的异常信息,该异常信息用于指示故障DDR颗粒,进而主机CPU可以在对网络芯片进行初始化配置时,禁用异常信息指示的故障DDR颗粒,如此,相当于隔离了故障DDR颗粒,使得故障DDR颗粒不会影响网络芯片对其他DDR颗粒的使用,避免了因少数故障DDR颗粒故障导致整个网络芯片无法正常运行的问题。且网络芯片重启是由网络芯片通过ECC检测到故障DDR颗粒触发的,也就避免了在出现DDR颗粒故障的情况下,网络芯片仍访问故障DDR颗粒所导致的网络芯片不可用的问题。
在本申请的一个实施例中,如图6所示,在图5的基础上,S502包括以下步骤:
S5021、从非故障DDR颗粒的物理地址中,为网络芯片包括的各处理模块分配DDR物理地址,非故障DDR颗粒为网络芯片连接的除异常信息指示的故障DDR颗粒之外的DDR颗粒。
也就是说,主机CPU可以配置网络芯片的各处理模块与DDR颗粒的物理地址之间的映射关系。
在一种实施方式中,异常信息还包括网络芯片连接的非故障DDR颗粒的存储空间大小。基于此,在S5021之前,主机CPU还可以获取网络芯片中各处理模块所需的存储空间大小,如果网络芯片中各处理模块所需的存储空间大小之和小于等于非故障DDR颗粒的存储空间大小,则执行S5021。可以保证网络芯片初始化完成后,有足够的可用DDR存储空间供网络芯片使用,保证网络芯片的业务处理性能。
反之,如果网络芯片中各处理模块所需的存储空间大小之和大于非故障DDR颗粒的存储空间大小,则初始化失败。
S5022、向网络芯片发送各处理模块与分配的DDR物理地址之间的映射关系。
基于上述处理,可以使得网络芯片内部各处理模块只与正常DDR颗粒的物理地址之间存在映射关系,与故障DDR颗粒的物理地址之间不存在映射关系,也就实现了禁止网络芯片的各处理模块访问故障DDR颗粒,即屏蔽了故障DDR颗粒,使得网络芯片避免因访问故障DDR颗粒导致不可用。
其中,主机CPU可以将上述映射关系配置在网络芯片的处理模块的访问通路上,网络芯片内部处理模块与DDR颗粒之间的访问通路如图7所示,处理模块与DDR颗粒之间的访问通路包括二极缓存(level 2 cache,L2C)模块、网络芯片外部存储接口(externalmemory interface,EMI)模块和内存控制器(memory controller,MC)。
可选地,上述映射关系具体可以被配置在L2C模块中,处理模块需要访问DDR颗粒时,首先向L2C发送访问请求,如果L2C中已缓存处理模块所需访问的数据,则直接将这部分数据返回给处理模块。如果L2C中未缓存处理模块所需访问的数据,则根据上述映射关系确定处理模块可访问的DDR物理地址,并通过EMI模块将访问请求转发到相应的MC,使得处理模块可以访问到正常DDR。因上述映射关系中不存在故障DDR颗粒的物理地址,所以L2C模块不会将处理模块的访问请求转发给故障DDR颗粒连接的MC,所以网络芯片的所有处理模块都无法访问故障DDR颗粒,从而实现了对故障DDR颗粒的隔离。
以下结合图8对本申请实施例提供的故障处理方法的交互流程进行介绍,如图8所示,该方法包括:
S801、在网络芯片运行过程中,如果网络芯片通过ECC检测到异常信息A,将异常信息A写入NP flash0。
S802、对网络芯片重启。
S803、在网络芯片初始化过程中,如果通过BIST检测得到异常信息B,则将异常信息B写入NP flash1。
S804、网络芯片从NP flash0获取异常信息A。
S805、网络芯片将异常信息A||B写入寄存器。
其中,异常信息A||B的确定方式可参考上述实施例中的相关描述,此处不再赘述。
S806、主机CPU从网络芯片的寄存器中获取异常信息A||B。
S807、主机CPU配置网络芯片禁止访问异常信息A||B指示的故障DDR颗粒。
主机CPU会根据得到的异常信息A||B配置网络芯片内部各处理模块与正常DDR颗粒之间的映射关系,并将映射关系配置在到网络芯片的L2C中。
S808、系统初始化完成。
对应于上述方法实施例,本申请实施例还提供一种故障处理装置,该装置设置于网络芯片中,如图9所示,该装置包括:
第一检测模块901,用于在网络芯片运行过程中,对网络芯片连接的各双倍数据率DDR颗粒进行错误检查和纠正ECC检测,并分别确定各DDR颗粒存在的双比特错误数量;
故障确定模块902,用于如果存在DDR颗粒的双比特错误数量达到预设数量阈值,则确定该DDR颗粒为故障DDR颗粒;
故障记录模块903,用于记录故障确定模块902确定的故障DDR颗粒的标识;
生成模块904,用于重启网络芯片,基于已记录的故障DDR颗粒标识生成异常信息,以使得与网络芯片连接的主机CPU在对网络芯片初始化配置时,禁用异常信息所指示的故障DDR颗粒。
可选地,该装置还包括:
第二检测模块,用于在在网络芯片初始化过程中,对网络芯片连接的各DDR颗粒进行内部自测BIST检测;
故障记录模块903,用于如果第二检测模块通过BIST检测确定存在故障DDR颗粒,则记录故障DDR颗粒标识。
可选地,生成模块904,具体用于:
获取已记录的通过ECC检测得到的故障DDR颗粒标识,以及通过BIST检测得到的故障DDR颗粒标识;
对通过ECC检测得到的故障DDR颗粒标识和通过BIST检测得到的故障DDR颗粒标识进行比较,确定异常信息。
可选地,生成模块904,具体用于:
将通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的交集作为异常信息;或者,
将通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的并集作为异常信息。
可选地,生成模块904,具体还用于:
将通过ECC检测得到的故障DDR颗粒标识作为异常信息;或者,
将通过BIST检测得到的故障DDR颗粒标识作为异常信息。
可选地,该装置还包括:
接收模块,用于在网络芯片初始化过程中,接收主机CPU配置的网络芯片中各处理模块与DDR物理地址之间的映射关系,DDR物理地址不包括异常信息指示的故障DDR颗粒的物理地址;
访问控制模块,用于在网络芯片初始化完成后,基于各处理模块与DDR物理地址之间的映射关系,控制各处理模块访问DDR颗粒。
对应于上述方法实施例,本申请实施例还提供一种故障处理装置,该装置设置于主机CPU中,如图10所示,该装置包括:
获取模块1001,用于获取主机CPU连接的网络芯片记录的异常信息,异常信息用于指示故障DDR颗粒,异常信息为网络芯片基于已记录的故障DDR颗粒标识生成的,网络芯片已记录的故障DDR颗粒标识包括网络芯片通过ECC检测确定的双比特错误数量达到预设数量阈值的DDR颗粒的标识;
配置模块1002,用于在对网络芯片进行初始化配置时,禁用异常信息所指示的故障DDR颗粒。
可选地,网络芯片已记录的故障DDR的标识还包括网络芯片在初始化过程中通过BIST检测到的故障DDR颗粒的标识。
可选地,异常信息包括:
通过ECC检测得到的故障DDR颗粒标识;或者,
通过BIST检测得到的故障DDR颗粒标识;或者,
通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的交集;或者,
通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的并集。
可选地,配置模块1002,具体用于:
从非故障DDR颗粒的物理地址中,为网络芯片包括的各处理模块分配DDR物理地址,非故障DDR颗粒为网络芯片连接的除异常信息指示的故障DDR颗粒之外的DDR颗粒;
向网络芯片发送各处理模块与分配的DDR物理地址之间的映射关系。
可选地,异常信息还包括非故障DDR颗粒的存储空间大小;该装置还包括:判断模块。
获取模块1001,还用于获取网络芯片中各处理模块所需的存储空间大小;
判断模块,用于如果网络芯片中各处理模块所需的存储空间大小之和小于等于非故障DDR的存储空间大小,则触发配置模块1002执行从非故障DDR颗粒的物理地址中,为网络芯片包括的各处理模块分配DDR物理地址的步骤。
本申请实施例还提供了一种网络设备,该网络设备包括网络芯片、主机CPU以及与网络芯片连接的多个DDR颗粒。
其中,网络芯片用于实现上述方法实施例中由网络芯片执行的方法步骤。
主机CPU用于实现上述方法实施例中由主机CPU执行的方法步骤。
本申请实施例还提供了一种网络芯片,该网络芯片用于实现上述方法实施例中由网络芯片执行的方法步骤。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一故障处理方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、网络设备、存储介质及程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (16)

1.一种故障处理方法,其特征在于,所述方法应用于网络芯片,所述方法包括:
在所述网络芯片运行过程中,对所述网络芯片连接的各双倍数据率DDR颗粒进行错误检查和纠正ECC检测,并分别确定各DDR颗粒存在的双比特错误数量;
如果存在DDR颗粒的双比特错误数量达到预设数量阈值,则确定该DDR颗粒为故障DDR颗粒,记录故障DDR颗粒标识;
重启所述网络芯片,基于已记录的故障DDR颗粒标识生成异常信息,以使得与所述网络芯片连接的主机CPU在对所述网络芯片进行初始化配置时,禁用所述异常信息所指示的故障DDR颗粒。
2.根据权利要求1所述的方法,其特征在于,在所述基于已记录的故障DDR颗粒标识生成异常信息之前,所述方法还包括:
在所述网络芯片初始化过程中,对所述网络芯片连接的各DDR颗粒进行内部自测BIST检测;
如果通过BIST检测确定存在故障DDR颗粒,则记录故障DDR颗粒标识。
3.根据权利要求2所述的方法,其特征在于,所述基于已记录的故障DDR颗粒标识生成异常信息,包括:
获取已记录的通过ECC检测得到的故障DDR颗粒标识,以及通过BIST检测得到的故障DDR颗粒标识;
对通过ECC检测得到的故障DDR颗粒标识和通过BIST检测得到的故障DDR颗粒标识进行比较,确定所述异常信息。
4.根据权利要求3所述的方法,其特征在于,所述对通过ECC检测得到的故障DDR颗粒的标识和通过BIST检测得到的故障DDR颗粒的标识进行比较,确定所述异常信息,包括:
将通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的交集作为所述异常信息;或者,
将通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的并集作为所述异常信息。
5.根据权利要求2所述的方法,其特征在于,所述基于已记录的故障DDR颗粒标识生成异常信息,包括:
将通过ECC检测得到的故障DDR颗粒标识作为所述异常信息;或者,
将通过BIST检测得到的故障DDR颗粒标识作为所述异常信息。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
在所述网络芯片初始化过程中,接收所述主机CPU配置的所述网络芯片中各处理模块与DDR物理地址之间的映射关系,所述DDR物理地址不包括所述异常信息指示的故障DDR颗粒的物理地址;
在所述网络芯片初始化完成后,基于各处理模块与DDR物理地址之间的映射关系,控制各处理模块访问DDR颗粒。
7.一种故障处理方法,其特征在于,所述方法应用于主机CPU,所述方法包括:
获取所述主机CPU连接的网络芯片记录的异常信息,所述异常信息用于指示故障DDR颗粒,所述异常信息为所述网络芯片基于已记录的故障DDR颗粒标识生成的,所述网络芯片已记录的故障DDR颗粒标识包括所述网络芯片通过ECC检测确定的双比特错误数量达到预设数量阈值的DDR颗粒的标识;
在对所述网络芯片进行初始化配置时,禁用所述异常信息所指示的故障DDR颗粒。
8.根据权利要求7所述的方法,其特征在于,所述网络芯片已记录的故障DDR标识还包括所述网络芯片在初始化过程中通过BIST检测到的故障DDR颗粒的标识。
9.根据权利要求8所述的方法,其特征在于,所述异常信息包括:
通过ECC检测得到的故障DDR颗粒标识;或者,
通过BIST检测得到的故障DDR颗粒标识;或者,
通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的交集;或者,
通过ECC检测得到的故障DDR颗粒标识,与通过BIST检测得到的故障DDR颗粒标识的并集。
10.根据权利要求7-9任一项所述的方法,其特征在于,所述在对所述网络芯片进行初始化配置时,禁用所述异常信息所指示的故障DDR颗粒,包括:
从非故障DDR颗粒的物理地址中,为所述网络芯片包括的各处理模块分配DDR物理地址,所述非故障DDR颗粒为所述网络芯片连接的除所述异常信息指示的故障DDR颗粒之外的DDR颗粒;
向所述网络芯片发送各处理模块与分配的DDR物理地址之间的映射关系。
11.根据权利要求10所述的方法,其特征在于,所述异常信息还包括所述非故障DDR颗粒的存储空间大小;在从非故障DDR颗粒的物理地址中,为所述网络芯片包括的各处理模块分配DDR物理地址之前,所述方法还包括:
获取所述网络芯片中各处理模块所需的存储空间大小;
如果所述网络芯片中各处理模块所需的存储空间大小之和小于等于所述非故障DDR的存储空间大小,则执行所述从非故障DDR颗粒的物理地址中,为所述网络芯片包括的各处理模块分配DDR物理地址的步骤。
12.一种故障处理装置,其特征在于,所述装置设置于网络芯片中,所述装置包括:
第一检测模块,用于在所述网络芯片运行过程中,对所述网络芯片连接的各双倍数据率DDR颗粒进行错误检查和纠正ECC检测,并分别确定各DDR颗粒存在的双比特错误数量;
故障确定模块,用于如果存在DDR颗粒的双比特错误数量达到预设数量阈值,则确定该DDR颗粒为故障DDR颗粒;
故障记录模块,用于记录所述故障确定模块确定的故障DDR颗粒的标识;
生成模块,用于重启所述网络芯片,基于已记录的故障DDR颗粒标识生成异常信息,以使得与所述网络芯片连接的主机CPU在对所述网络芯片进行初始化配置时,禁用所述异常信息所指示的故障DDR颗粒。
13.一种故障处理装置,其特征在于,所述装置设置于主机CPU中,所述装置包括:
获取模块,用于获取所述主机CPU连接的网络芯片记录的异常信息,所述异常信息用于指示故障DDR颗粒,所述异常信息为所述网络芯片基于已记录的故障DDR颗粒标识生成的,所述网络芯片已记录的故障DDR颗粒标识包括所述网络芯片通过ECC检测确定的双比特错误数量达到预设数量阈值的DDR颗粒的标识;
配置模块,用于在对所述网络芯片进行初始化配置时,禁用所述异常信息所指示的故障DDR颗粒。
14.一种网络设备,其特征在于,包括网络芯片、主机CPU以及与所述网络芯片连接的多个DDR颗粒;
所述网络芯片用于实现权利要求1-6任一所述的方法步骤;
所述主机CPU用于实现权利要求7-11任一所述的方法步骤。
15.一种网络芯片,其特征在于,所述网络芯片用于实现权利要求1-6任一所述的方法步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6或7-11任一所述的方法步骤。
CN202111132311.XA 2021-09-27 2021-09-27 一种故障处理方法、装置、网络芯片、设备及存储介质 Active CN113568777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111132311.XA CN113568777B (zh) 2021-09-27 2021-09-27 一种故障处理方法、装置、网络芯片、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111132311.XA CN113568777B (zh) 2021-09-27 2021-09-27 一种故障处理方法、装置、网络芯片、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113568777A true CN113568777A (zh) 2021-10-29
CN113568777B CN113568777B (zh) 2022-04-22

Family

ID=78174680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111132311.XA Active CN113568777B (zh) 2021-09-27 2021-09-27 一种故障处理方法、装置、网络芯片、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113568777B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114449559A (zh) * 2021-12-22 2022-05-06 华为技术有限公司 一种故障检测的方法、信号处理装置和控制装置
CN115941494A (zh) * 2022-12-29 2023-04-07 苏州盛科通信股份有限公司 一种细粒度切片时隙协商的方法及应用

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203740A (zh) * 2011-05-27 2011-09-28 华为技术有限公司 数据处理方法、装置及系统
CN103500133A (zh) * 2013-09-17 2014-01-08 华为技术有限公司 故障定位方法及装置
CN103823722A (zh) * 2012-11-16 2014-05-28 国际商业机器公司 基于请求类型的选择性后置数据错误检测
US20140181364A1 (en) * 2012-12-21 2014-06-26 Dell Products L.P. Systems And Methods For Support Of Non-Volatile Memory On A DDR Memory Channel
US20150363255A1 (en) * 2014-06-11 2015-12-17 International Business Machines Corporation Bank-level fault management in a memory system
CN105976868A (zh) * 2016-05-05 2016-09-28 浪潮电子信息产业股份有限公司 一种通过故障隔离技术提高内存可靠性的方法
US20170193142A1 (en) * 2015-12-30 2017-07-06 Arteris, Inc. Dynamic link serialization in network-on-chip
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN109947586A (zh) * 2019-03-20 2019-06-28 浪潮商用机器有限公司 一种隔离故障设备的方法、装置和介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203740A (zh) * 2011-05-27 2011-09-28 华为技术有限公司 数据处理方法、装置及系统
CN103823722A (zh) * 2012-11-16 2014-05-28 国际商业机器公司 基于请求类型的选择性后置数据错误检测
US20140181364A1 (en) * 2012-12-21 2014-06-26 Dell Products L.P. Systems And Methods For Support Of Non-Volatile Memory On A DDR Memory Channel
CN103500133A (zh) * 2013-09-17 2014-01-08 华为技术有限公司 故障定位方法及装置
US20150363255A1 (en) * 2014-06-11 2015-12-17 International Business Machines Corporation Bank-level fault management in a memory system
US20170193142A1 (en) * 2015-12-30 2017-07-06 Arteris, Inc. Dynamic link serialization in network-on-chip
CN105976868A (zh) * 2016-05-05 2016-09-28 浪潮电子信息产业股份有限公司 一种通过故障隔离技术提高内存可靠性的方法
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN109947586A (zh) * 2019-03-20 2019-06-28 浪潮商用机器有限公司 一种隔离故障设备的方法、装置和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114449559A (zh) * 2021-12-22 2022-05-06 华为技术有限公司 一种故障检测的方法、信号处理装置和控制装置
WO2023116680A1 (zh) * 2021-12-22 2023-06-29 华为技术有限公司 一种故障检测的方法、信号处理装置和控制装置
CN115941494A (zh) * 2022-12-29 2023-04-07 苏州盛科通信股份有限公司 一种细粒度切片时隙协商的方法及应用

Also Published As

Publication number Publication date
CN113568777B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
US11119874B2 (en) Memory fault detection
CN113568777B (zh) 一种故障处理方法、装置、网络芯片、设备及存储介质
US10061534B2 (en) Hardware based memory migration and resilvering
TWI552158B (zh) 用於測試記憶體之系統與方法
US7900084B2 (en) Reliable memory for memory controller with multiple channels
JP5965076B2 (ja) 訂正不能メモリエラー処理方法及びその可読媒体
CN101477480B (zh) 内存控制方法、装置及内存读写系统
KR20130050362A (ko) 어드레스 스와핑을 통한 동적 물리적 메모리 대체
US9645904B2 (en) Dynamic cache row fail accumulation due to catastrophic failure
EP1675009A2 (en) Addressing error and address detection systems and methods
CN102968353A (zh) 一种失效地址处理方法及装置
CN112667422A (zh) 内存故障处理方法及装置、计算设备、存储介质
US9965346B2 (en) Handling repaired memory array elements in a memory of a computer system
US11282584B2 (en) Multi-chip package and method of testing the same
US11797373B2 (en) System and method for managing faults in integrated circuits
US12009047B2 (en) Systems and methods for continuous wordline monitoring
TWI654518B (zh) 錯誤狀態儲存方法及伺服器
US20230386598A1 (en) Methods for real-time repairing of memory failures caused during operations, memory systems performing repairing methods, and data processing systems including repairing memory systems
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
TWI607455B (zh) 記憶體資料檢測方法
CN116483600A (zh) 内存故障处理方法及计算机设备
CN115705261A (zh) 内存故障的修复方法、cpu、os、bios及服务器
TW202324096A (zh) 儲存裝置
CN117992273A (zh) 数据处理方法、装置、电子设备以及存储介质
JP5510679B2 (ja) ディスクアレイ装置、ディスクアレイシステム、障害経路特定方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant