CN118093253A - 一种多核锁步处理器多级快速错误恢复系统 - Google Patents

一种多核锁步处理器多级快速错误恢复系统 Download PDF

Info

Publication number
CN118093253A
CN118093253A CN202410521490.3A CN202410521490A CN118093253A CN 118093253 A CN118093253 A CN 118093253A CN 202410521490 A CN202410521490 A CN 202410521490A CN 118093253 A CN118093253 A CN 118093253A
Authority
CN
China
Prior art keywords
error
processor
stage
control module
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410521490.3A
Other languages
English (en)
Other versions
CN118093253B (zh
Inventor
张洵颖
赵晓冬
崔媛媛
张海金
龙新谋
李万通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202410521490.3A priority Critical patent/CN118093253B/zh
Publication of CN118093253A publication Critical patent/CN118093253A/zh
Application granted granted Critical
Publication of CN118093253B publication Critical patent/CN118093253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Hardware Redundancy (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本发明提供了一种多核锁步处理器多级快速错误恢复系统,该系统由锁步处理器组、流水线寄存器检错与PC控制模块、处理器组检错与回卷模块、多级容忍控制模块组成。系统通过多级容忍控制模块对系统进行不同粒度的容错控制及错误管理,多级容忍控制模块调度全局的容错机制,一旦在某一级容错模块中的出错频率超过了所能容忍的限度,就暂停该模块的检错。模块停止检错使得错误向下一级传递,由下一级模块进行检错及恢复任务,其中最高一级的处理机制为对片外上报错误指示。本发明通过多级检错及错误恢复的方式达到在系统出现错误的时能够实现快速检错并将系统恢复到正确的状态,在达到快速检错和恢复的同时尽可能的减小性能的损失。

Description

一种多核锁步处理器多级快速错误恢复系统
技术领域
本发明涉及处理器容错设计技术领域,具体涉及一种多核锁步处理器多级快速错误恢复系统。
背景技术
在制造工艺带来的器件特征尺寸减小、低功耗技术发展带来的阈值电压降低、制造工艺偏差、环境辐射和使用过程中参数退化等多种因素下,处理器对于串扰、电压扰动、电磁干扰以及辐射等各种噪声干扰变得更加敏感。这些现象可能引发处理器错误的操作,使得整个芯片的故障率增加。相关处理器芯片需要具备检错及恢复能力,以减轻软错误对系统的影响,因此设计高可靠容错处理器芯片是特殊领域专用处理系统的必然选择。
目前常用的处理器容错方法之一为将处理器组成冗余锁步结构,并通过内部纠检错硬件实现故障检错、定位、屏蔽和隔离。在硬件上采用多个处理器输出结果周期级的实时对比,通过多数表决器将正确结果输出,间歇性的保存正确的状态,若检测出错误就启动回卷,使得可靠性和实时性有一定的保障。但是这些容错方式及容错粒度较为单一,一旦出现错误就回卷到上一检查点,灵活性、实时性差和性能损失大;且无法处理多种错误持续出现或更加严重的情况,故可靠性、性实时和性能都存在不足。
发明内容
为了解决现有技术中存在的问题,本发明提供一种多核锁步处理器多级快速错误恢复系统,其目的在于,通过多级检错及错误恢复的方式达到在系统出现错误的时能够实现快速检错并将系统恢复到正确的状态,在达到快速检错和恢复的同时尽可能的减小性能的损失。本发明具体通过以下技术方案实现:
提供一种多核锁步处理器多级快速错误恢复系统,包括:锁步处理器组、流水线寄存器检错与PC控制模块、处理器组检错与回卷模块、多级容忍控制模块;
所述流水线寄存器检错与PC控制模块包括流水线寄存器检错模块和PC回卷控制模块;其中,所述流水线寄存器检错模块通过校验各处理器核的每级流水线寄存器值并进行判决,若判决出结果不一致,则对该级和其前级所有的流水线寄存器进行暂停操作,并将出错的流水线寄存器标号传给PC回卷控制模块;所述PC回卷控制模块用于存储每次处理器向指令存储器发送的PC指针,且当接收到错误指示及对应出错的流水线寄存器标号时,能够通过接收到的所述寄存器标号将对应的PC指针进行选择并输出;
所述处理器组检错与回卷模块将处理器组的输出作为输入,若所有处理器的输出均匹配,则将结果输出,并间歇性存储处理器寄存器文件于检查点;若多数处理器的输出匹配时,则将正确结果输出,并将出错的处理器核心编号上报回卷模块;回卷模块将状态正确的处理器寄存器状态取出并写回于出错的处理器,完成恢复操作;若所有处理器的输出均不匹配,则不输出处理器的结果,并将错误上报回卷模块,回卷模块将最近检查点的状态全部写回所有处理器,完成回卷操作;
若流水线寄存器检错模块出现频繁错误且超过了所述多级容忍控制模块可容忍的限度,则所述多级容忍控制模块控制所述寄存器检错模块停止检错,这时锁步处理器组输出错误数据或指令,若所述处理器组检错与回卷模块检测出某一处理器频繁的出现错误,且超过了所述多级容忍控制模块可容忍的限度,则所述多级容忍控制模块控制所述回卷模块将检查点的数据写入所有处理器,完成回卷;若频繁的出现通过检查点回卷的现象,且超过了所述多级容忍控制模块可容忍的限度,则所述多级容忍控制模块将发送复位信号对除所述多级容忍控制模块之外的整个系统进行复位,将系统恢复初始态;若频繁的出现复位现象,且超过了所述多级容忍控制模块可容忍的限度,则所述多级容忍控制模块将错误上报片外,报告该处理器系统已经失效,且将锁步系统永久复位。
作为本发明的进一步说明,所述锁步处理器组为将多级流水线处理器同等的复制多份形成的锁步结构,其中一个为主处理器核,其他为校验核。
作为本发明的进一步说明,所有处理器核均有相同的指令和数据输入,且被要求严格执行相同的程序。
作为本发明的进一步说明,所述流水线寄存器检错模块包括按位表决检错模块和仲裁器;
各处理器的各级流水线寄存器值输入至所述按位表决检错模块进行表决,当表决结果出现错误时,将进入流水线暂停模式,对该级及其前级寄存器进行暂停,后级流水线寄存器正常运行;错误结果输入至所述仲裁器,所述仲裁器将出错的流水线寄存器标号输出至PC回卷控制模块,若出现多个流水线寄存器都出现错误,所述仲裁器输出最后一级出错的流水线寄存器标号。
作为本发明的进一步说明,所述PC回卷控制模块有两处数据信号输入,其中一处输入为新PC指针,在接收新PC指针时,会将所述新PC指针存入位移寄存器中,其他已存储的PC指针将会被位移至下一级,最后一级的PC指针将被推出舍弃。
作为本发明的进一步说明,所述PC回卷控制模块内设置多路选择器,当所述PC回卷控制模块接收到错误寄存器标号,所述多路选择器通过接收到的寄存器标号将对应的PC指针进行选择并输出。
所述恢复系统还设置有双路选择器,所述双路选择器用于选择PC级输出的指针或选择PC回卷控制模块的指针作为PC指针。
作为本发明的进一步说明,所述处理器组检错与回卷模块内设置按位判决器,所述按位判决器用于对处理器组的输出进行分组逐次对照比较判决,判断所有处理器的输出是否匹配,且将判决结果输出到所述回卷模块和所述多级容忍控制模块。
与现有技术相比,本发明具有以下有益的技术效果:
1、通过多级容错机制,可实现多冗余更可靠的检错与恢复功能,从而使得错误无法传播到多核锁步处理器系统外,增加系统的稳定性和可靠性。多级容错机制从多种粒度、不同层次的对多核锁步处理器进行容错及管理,细粒度的容错机制有效的降低回卷所带来的处理器停顿性能开销,粗粒度的容错机制能够避免细粒度容错机制下无法检测的错误从处理器传播蔓延至系统外,增加系统可靠性。
2、对错误进行多级容忍控制处理,当某一级的错误反复发生,超过所容忍的次数,容忍控制模块将暂时暂停该级的检错功能,将错误输出到下一级。这将有效解决处理器反复对某一特定无法解决的错误进行检错与恢复的问题,避免处理器性能大幅下降或进入死循环式回卷。
本技术方案的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术方案而了解。本技术方案的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本技术方案的技术方案做进一步的详细描述。
附图说明
附图用来提供对本技术方案的进一步理解,并且构成说明书的一部分,与本技术方案的实施例一起用于解释本技术方案,并不构成对本技术方案的限制。在附图中:
图1为本发明提供的多核锁步处理器多级快速错误恢复系统框图。
图2为本发明中五级流水线寄存器检错及恢复微架构框图。
图3为本发明中流水线寄存器检错与PC控制模块框图。
图4为本发明中流水线寄存器检错与PC控制模块运行状态机。
图 5为本发明中多级容忍控制模块状态机。
具体实施方式
以下结合附图对本技术方案的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本技术方案,并不用于限定本技术方案。
目前常用的处理器容错方法之一为将处理器组成冗余锁步结构,并通过内部纠检错硬件实现故障检错、定位、屏蔽和隔离。在硬件上采用多个处理器输出结果周期级的实时对比,通过多数表决器将正确结果输出,间歇性的保存正确的状态,若检测出错误就启动回卷,使得可靠性和实时性有一定的保障。但是这些容错方式及容错粒度较为单一,一旦出现错误就回卷到上一检查点,灵活性、实时性差和性能损失大;且无法处理多种错误持续出现或更加严重的情况,故可靠性、性实时和性能都存在不足。
为了解决现有技术中存在的问题,本发明提供一种多核锁步处理器多级快速错误恢复系统,其目的在于,通过多级检错及错误恢复的方式达到在系统出现错误的时能够实现快速检错并将系统恢复到正确的状态,在达到快速检错和恢复的同时尽可能的减小性能的损失。
本发明的多级快速错误恢复系统共分为5级,第一级:PC回卷级,通过对处理器微架构进行修改,对处理器每级流水线寄存器进行按位表决检错及PC回卷;第二级:单处理器错误级,对处理器全部的输出进行仲裁检错,若多数表决器的结果是仅有单一处理器出现错误则输出正确结果,并将状态正常的处理器寄存器值取出,写回到出现错误的处理器;第三级:多处理器错误级,若多数表决器无法表决出正确的输出结果,则通过将存储的回卷点写回到各个处理器;第四级:复位级,若出现频繁多次执行第三级的操作,则表明多核处理器组内部出现难以恢复的错误,需要对多核锁步处理器组进行复位操作;第五级:错误上报级,若出现频繁多次复位的情况,则表明整个系统出现不可恢复的错误,需要将错误信号输出,上报片外系统进行裁决。
具体的,如图1所示,该多核锁步处理器多级快速错误恢复系统,包括:锁步处理器组、流水线寄存器检错与PC控制模块、处理器组检错与回卷模块、多级容忍控制模块。
该系统通过多级容忍控制模块对系统进行不同粒度的容错控制及错误管理,多级容忍控制模块调度全局的容错机制,一旦在某一级容错模块中的出错频率超过了所能容忍的限度,就暂停该模块的检错。模块停止检错使得错误向下一级传递,由下一级模块进行检错及恢复任务,其中最高一级的处理机制为对片外上报错误指示。
以下主要以三核锁步结构为例进行说明,其中锁步处理器组为将五级流水线处理器同等的复制多份形成的锁步结构,其中一个为主处理器核,其他为校验核;这些处理器核有相同的指令和数据输入,且被要求严格执行相同的程序。
如图 2所示,以典型五级流水处理器为例,通过修改流水线微架构,各级流水线寄存器与流水线寄存器检错模块存在数据传输及控制通道,每级寄存器的值都会被传输到流水线寄存器检错模块,若某一级的流水线寄存器被检出错误,流水线寄存器检错模块将发出控制信号进行暂停该级和其前级的流水线寄存器。同时在取指前插入一个双路选择器,其用于选择PC级输出的指针或选择PC回卷控制模块的指针作为PC指针,由PC回卷控制模块通过流水线寄存器检错模块所上报的信息进行决定哪个输入的PC值作为PC指针。
如图3所示,流水线寄存器检错与PC控制模块包括流水线寄存器检错模块和PC回卷控制模块;流水线寄存器检错模块包括按位表决检错模块和仲裁器。
在运行模式下,流水线寄存器检错模块接收各处理器的各级流水线寄存器值,各处理器的各级流水线寄存器值输入至按位表决检错模块进行表决,当表决结果出现错误时,将进入流水线暂停模式,对该级及其前级寄存器进行暂停,后级流水线寄存器正常运行;错误结果将输入至仲裁器,仲裁器将出错的流水线寄存器标号输出至PC回卷控制模块,若出现多个流水线寄存器都出现错误,仲裁器输出最后一级出错的流水线寄存器标号。
PC回卷控制模块用于存储每次处理器向指令存储器发送的PC指针,且当接收到错误指示及对应出错的流水线寄存器标号时,能够通过接收到的寄存器标号将对应的PC指针进行选择并输出。
如图 3所示,PC回卷控制模块有两处数据信号输入,其中一处输入为新PC指针。在接收新PC指针时,会将该新PC指针存入具有5级存储空间的位移寄存器中,其他已存储的PC指针将会被位移至下一级,最后一级的PC4-MEM/WB指针将被推出舍弃。
如图 3所示,当PC回卷控制模块接收到错误寄存器标号,意味着流水线寄存器中出现错误,将进入PC选择模式。PC回卷控制模块的输出加了一级多路选择器,该多路选择器通过接收到的寄存器标号将对应的PC指针进行选择并输出,随后进入PC回卷模式。通过接收到的错误寄存器标号进行控制双路选择器,双路选择器将选择PC回卷控制模块的PC指针输出,处理器执行回卷后的PC指针所在的指令,最终返回正常运行模式。
流水线寄存器检错与PC控制模块的运行状态机如图4所示,若流水线寄存器出现回卷频繁,超过了多级容忍控制模块的容忍限度,模块将进入停止检错模式。对流水线寄存器的检错将暂停,使得错误传播至处理器组检错与回卷模块,直至外部模块完成对处理器的错误恢复后,流水线寄存器检错与PC控制模块返回到运行模式。
如图 1所示,处理器组检错与回卷模块将处理器组的输出作为输入,处理器组检错与回卷模块内设置了按位判决器,按位判决器将对处理器组的输出进行分组逐次对照比较判决,判断所有处理器的输出是否匹配,且将判决结果输出到回卷模块和多级容忍控制模块。若判决无错误,正确的处理器指令或数据信号将被输出,且在一定周期间隔内回卷模块将处理器寄存器信息存储作为检查点。
如图 1所示,若处理器组检错与回卷模块的按位判决器结果中有一个输入判决不一致,此时系统进入单处理器恢复模式,处理器组的有效控制访问信号不输出,只输出默认的无效信号,且判决结果将输出到回卷模块和多级容忍控制模块。回卷模块将从状态正确的处理器获取其内部的寄存器信息,并写回出错的处理器寄存器内部,完成处理器恢复后返回流水线容错模式。
如图 1所示,若处理器组检错与回卷模块的按位判决器结果中三个输入判决均不一致,处理器组的有效控制访问信号不输出,只输出默认的无效信号,且判决结果将输出到回卷模块和多级容忍控制模块。回卷模块进入多处理器回卷模式,将检查点的数据写回到所有的处理器寄存器内部,完成回卷后返回流水线容错模式。
该处理器组检错与回卷模块主要分为处理器组检错模块和回卷模块,其负责对处理器的输出进行周期级检错、检查点存储及对出错的处理器进行错误恢复。
如图 1所示,多级容忍控制模块调度全局的容错机制,本系统一旦在某一级容错模块中出错频率超过了容忍的限度就暂停该级的检错,使得错误向下一级传递,由下一级检错及恢复,最高一级的处理机制为对片外上报错误指示。
该多级容忍控制模块,主要用于分析各模块的错误频次和调度各模块的工作状态。如果流水线寄存器检错模块出现频繁错误现象,说明内部存在通过PC回卷处理都无法恢复的错误。由于流水线将频繁的暂停及频繁的进行PC回卷操作,大大影响处理器的性能,这超过了多级容忍控制模块可容忍的限度,容忍模块将控制寄存器检错模块停止检错,这时锁步处理器组输出错误数据或指令,错误将由处理器组检错与回卷模块进行处理。若处理器组检错与回卷模块检测出某一处理器频繁的出现错误,且通过注入其他正确的处理器的状态也无法停止这一现象;当这一现象超过多级容忍控制模块容忍的限度,多级容忍控制模块将控制回卷模块将检查点的数据写入多核处理器锁步组的全部处理器,完成回卷。若频繁的出现通过检查点回卷的现象,超过多级容忍控制模块容忍的限度,则表明锁步组内部出现严重错误,已经完全失锁,多级容忍控制模块将发送复位信号对除多级容忍控制模块的整个系统进行复位,将系统恢复初始态。若出现频繁的复位现象,且超过多级容忍控制模块容忍的限度,则表明系统已经失效,多级容忍控制模块将错误上报片外,报告该处理器系统已经失效,且将锁步系统永久复位,避免对外发送错误的控制信号影响全系统的功能。
如图 5所示,多级容忍控制模块状态机显示,系统复位撤销后,系统处于流水线级容错模式。若该模式下出现回卷频繁,超过容忍的限度,多级容忍控制模块将暂停PC回卷级的检错功能使错误输出至下一模块。若为单处理器错误则进入单处理器恢复模式,为多处理器错误则进入多处理器回卷模式,恢复完成后均返回流水线级容错模式。
如图 5所示,若单处理器错误恢复次数发生频繁,超过多级容忍控制模块所能容忍的限度,多级容忍控制模块将进入多处理器回卷模式,控制处理器组检错与回卷模块中的回卷模块进行基于检查点的回卷,随后返回流水线级容错模式。
如图 5所示,若多处理器回卷次数发生过于频繁,超过多级容忍控制模块所能容忍的限度,说明处理器组内出现回卷也无法恢复的错误。多级容错控制模块进入复位模式,对处理器组发起复位操作,处理器组内所有状态将恢复初始值,随后返回流水线级容错模式。
如图 5所示,若处理器组发起的复位操作过于频繁,系统一直持续性的陷入复位操作,表明系统已经失效,无法再继续执行任务。多级容忍控制模块将对处理器组发起复位操作并不撤销复位,随后向片外发出错误信号,表示片内发生了系统失效,请求外部系统介入。
显然,本领域的技术人员可以对本技术方案进行各种改动和变型而不脱离本技术方案的精神和范围。这样,倘若本技术方案的这些修改和变型属于本技术方案权利要求及其等同技术的范围之内,则本技术方案也意图包含这些改动和变型在内。

Claims (8)

1.一种多核锁步处理器多级快速错误恢复系统,其特征在于,包括:锁步处理器组、流水线寄存器检错与PC控制模块、处理器组检错与回卷模块、多级容忍控制模块;
所述流水线寄存器检错与PC控制模块包括流水线寄存器检错模块和PC回卷控制模块;其中,所述流水线寄存器检错模块通过校验各处理器核的每级流水线寄存器值并进行判决,若判决出结果不一致,则对该级和其前级所有的流水线寄存器进行暂停操作,并将出错的流水线寄存器标号传给PC回卷控制模块;所述PC回卷控制模块用于存储每次处理器向指令存储器发送的PC指针,且当接收到错误指示及对应出错的流水线寄存器标号时,能够通过接收到的所述寄存器标号将对应的PC指针进行选择并输出;
所述处理器组检错与回卷模块将处理器组的输出作为输入,若所有处理器的输出均匹配,则将结果输出,并间歇性存储处理器寄存器文件于检查点;若多数处理器的输出匹配时,则将正确结果输出,并将出错的处理器核心编号上报回卷模块;回卷模块将状态正确的处理器寄存器状态取出并写回于出错的处理器,完成恢复操作;若所有处理器的输出均不匹配,则不输出处理器的结果,并将错误上报回卷模块,回卷模块将最近检查点的状态全部写回所有处理器,完成回卷操作;
若流水线寄存器检错模块出现频繁错误且超过了所述多级容忍控制模块可容忍的限度,则所述多级容忍控制模块控制所述寄存器检错模块停止检错,这时锁步处理器组输出错误数据或指令,若所述处理器组检错与回卷模块检测出某一处理器频繁的出现错误,且超过了所述多级容忍控制模块可容忍的限度,则所述多级容忍控制模块控制所述回卷模块将检查点的数据写入所有处理器,完成回卷;若频繁的出现通过检查点回卷的现象,且超过了所述多级容忍控制模块可容忍的限度,则所述多级容忍控制模块将发送复位信号对除所述多级容忍控制模块之外的整个系统进行复位,将系统恢复初始态;若频繁的出现复位现象,且超过了所述多级容忍控制模块可容忍的限度,则所述多级容忍控制模块将错误上报片外,报告该处理器系统已经失效,且将锁步系统永久复位。
2.如权利要求1所述的多核锁步处理器多级快速错误恢复系统,其特征在于,所述锁步处理器组为将多级流水线处理器同等的复制多份形成的锁步结构,其中一个为主处理器核,其他为校验核。
3.如权利要求2所述的多核锁步处理器多级快速错误恢复系统,其特征在于,所有处理器核均有相同的指令和数据输入,且被要求严格执行相同的程序。
4.如权利要求1所述的多核锁步处理器多级快速错误恢复系统,其特征在于,所述流水线寄存器检错模块包括按位表决检错模块和仲裁器;
各处理器的各级流水线寄存器值输入至所述按位表决检错模块进行表决,当表决结果出现错误时,将进入流水线暂停模式,对该级及其前级寄存器进行暂停,后级流水线寄存器正常运行;错误结果输入至所述仲裁器,所述仲裁器将出错的流水线寄存器标号输出至PC回卷控制模块,若出现多个流水线寄存器都出现错误,所述仲裁器输出最后一级出错的流水线寄存器标号。
5.如权利要求1所述的多核锁步处理器多级快速错误恢复系统,其特征在于,所述PC回卷控制模块有两处数据信号输入,其中一处输入为新PC指针,在接收新PC指针时,会将所述新PC指针存入位移寄存器中,其他已存储的PC指针将会被位移至下一级,最后一级的PC指针将被推出舍弃。
6.如权利要求1所述的多核锁步处理器多级快速错误恢复系统,其特征在于,所述PC回卷控制模块内设置多路选择器,当所述PC回卷控制模块接收到错误寄存器标号,所述多路选择器通过接收到的寄存器标号将对应的PC指针进行选择并输出。
7.如权利要求1所述的多核锁步处理器多级快速错误恢复系统,其特征在于,所述恢复系统还设置有双路选择器,所述双路选择器用于选择PC级输出的指针或选择PC回卷控制模块的指针作为PC指针。
8.如权利要求1所述的多核锁步处理器多级快速错误恢复系统,其特征在于,所述处理器组检错与回卷模块内设置按位判决器,所述按位判决器用于对处理器组的输出进行分组逐次对照比较判决,判断所有处理器的输出是否匹配,且将判决结果输出到所述回卷模块和所述多级容忍控制模块。
CN202410521490.3A 2024-04-28 2024-04-28 一种多核锁步处理器多级快速错误恢复系统 Active CN118093253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410521490.3A CN118093253B (zh) 2024-04-28 2024-04-28 一种多核锁步处理器多级快速错误恢复系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410521490.3A CN118093253B (zh) 2024-04-28 2024-04-28 一种多核锁步处理器多级快速错误恢复系统

Publications (2)

Publication Number Publication Date
CN118093253A true CN118093253A (zh) 2024-05-28
CN118093253B CN118093253B (zh) 2024-06-28

Family

ID=91149409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410521490.3A Active CN118093253B (zh) 2024-04-28 2024-04-28 一种多核锁步处理器多级快速错误恢复系统

Country Status (1)

Country Link
CN (1) CN118093253B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205433A1 (en) * 2003-04-14 2004-10-14 International Business Machines Corporation High reliability memory module with a fault tolerant address and command bus
CN104991844A (zh) * 2015-06-05 2015-10-21 中国航天科技集团公司第九研究院第七七一研究所 一种基于半定制寄存器文件的处理器及其容错方法
US20200192742A1 (en) * 2017-10-05 2020-06-18 Arm Limited Error recovery for intra-core lockstep mode
CN111581003A (zh) * 2020-04-29 2020-08-25 浙江大学 一种全硬件双核锁步处理器容错系统
CN116302648A (zh) * 2023-03-06 2023-06-23 中山大学 一种基于双核锁步处理器的故障处理方法
US20230350746A1 (en) * 2021-01-07 2023-11-02 Zhejiang University Fault-tolerant system with multi-core cpus capable of being dynamically configured
CN117112318A (zh) * 2023-08-28 2023-11-24 西安电子科技大学芜湖研究院 基于risc-v架构的双核容错系统
CN117687846A (zh) * 2023-09-18 2024-03-12 张家港方博明芯集成电路有限公司 一种基于双核锁步处理器的流水线加固方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205433A1 (en) * 2003-04-14 2004-10-14 International Business Machines Corporation High reliability memory module with a fault tolerant address and command bus
CN104991844A (zh) * 2015-06-05 2015-10-21 中国航天科技集团公司第九研究院第七七一研究所 一种基于半定制寄存器文件的处理器及其容错方法
US20200192742A1 (en) * 2017-10-05 2020-06-18 Arm Limited Error recovery for intra-core lockstep mode
CN111581003A (zh) * 2020-04-29 2020-08-25 浙江大学 一种全硬件双核锁步处理器容错系统
US20230350746A1 (en) * 2021-01-07 2023-11-02 Zhejiang University Fault-tolerant system with multi-core cpus capable of being dynamically configured
CN116302648A (zh) * 2023-03-06 2023-06-23 中山大学 一种基于双核锁步处理器的故障处理方法
CN117112318A (zh) * 2023-08-28 2023-11-24 西安电子科技大学芜湖研究院 基于risc-v架构的双核容错系统
CN117687846A (zh) * 2023-09-18 2024-03-12 张家港方博明芯集成电路有限公司 一种基于双核锁步处理器的流水线加固方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HATEM A. EL-AZAB等: ""Turning a Highly Reliable, Self-Repairing μ-Kernel OS into a Multicore-Based OS"", 《2017 27TH INTERNATIONAL CONFERENCE ON COMPUTER THEORY AND APPLICATIONS (ICCTA)》, 30 July 2021 (2021-07-30) *
彭和平;时晨;赵元富;于立新;陈雷;: "面向空间应用的双核容错微处理器的研究与实现", 宇航学报, no. 01, 30 January 2007 (2007-01-30) *

Also Published As

Publication number Publication date
CN118093253B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
US7308607B2 (en) Periodic checkpointing in a redundantly multi-threaded architecture
Bernick et al. NonStop/spl reg/advanced architecture
US6938183B2 (en) Fault tolerant processing architecture
US7747932B2 (en) Reducing the uncorrectable error rate in a lockstepped dual-modular redundancy system
US4996688A (en) Fault capture/fault injection system
US6058491A (en) Method and system for fault-handling to improve reliability of a data-processing system
US8095825B2 (en) Error correction method with instruction level rollback
CN101809542B (zh) 用于监视调试事件的系统和方法
CN112667450B (zh) 一种可动态配置的多核处理器容错系统
US10657010B2 (en) Error detection triggering a recovery process that determines whether the error is resolvable
US20060190702A1 (en) Device and method for correcting errors in a processor having two execution units
US6199171B1 (en) Time-lag duplexing techniques
CN220983766U (zh) 用于双核锁步的周期故障检测修复电路
JP5315748B2 (ja) マイクロプロセッサおよびシグネチャ生成方法ならびに多重化システムおよび多重化実行検証方法
JP2003015900A (ja) 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法
EP2159710B1 (en) Information processing apparatus and control method
Ebrahimi et al. ScTMR: A scan chain-based error recovery technique for TMR systems in safety-critical applications
US20090249174A1 (en) Fault Tolerant Self-Correcting Non-Glitching Low Power Circuit for Static and Dynamic Data Storage
CN118093253B (zh) 一种多核锁步处理器多级快速错误恢复系统
US7380165B2 (en) Assembly of electronic circuits comprising means for decontaminating error-contaminated parts
US10289332B2 (en) Apparatus and method for increasing resilience to faults
US9542266B2 (en) Semiconductor integrated circuit and method of processing in semiconductor integrated circuit
US11768735B2 (en) Checkpointing
US12072757B2 (en) Data processing system with tag-based queue management
EP4339781A1 (en) Processor and method of detecting soft error from processor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant