CN112328396B

CN112328396B - 基于任务等级的动态自适应sopc容错方法

Info

Publication number: CN112328396B
Application number: CN202011237763.XA
Authority: CN
Inventors: 王泉; 杨鹏飞; 李泽宇; 梁金鹏; 高歌; 王振翼; 林成民
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2022-10-21
Anticipated expiration: 2040-11-09
Also published as: CN112328396A

Abstract

本发明提出了一种基于任务等级的动态自适应SOPC容错方法，用于解决现有技术中存在的用户可用度和资源利用率较低的技术问题，实现步骤为：构建动态自适应可编程片上系统；内部配置访问端口ICAP向FPGA加载任务的全局比特流；FPGA进行区域划分；静态区域获取粒子翻转信号数量；PS端评估任务等级；PS端向ICAP发送配置信息；ICAP向动态可重构区域加载部分比特流；可重构模块执行任务；PS端判断可重构模块是否发生故障；ICAP向故障可重构模块加载部分比特流。本发明将任务执行时间、任务执行截止时间以及故障修复时间作为任务等级划分依据，具有较高的用户可用度以及资源利用率。

Description

基于任务等级的动态自适应SOPC容错方法

技术领域

本发明属于智能容错系统技术领域，涉及一种动态自适应SOPC容错方法，具体涉及一种动态自适应可编程片上系统SOPC容错方法，可应用于空间高辐射和星载环境关键片上系统容错设计。

背景技术

片上系统(SOC，System On Chip)是由单个芯片完成主要逻辑功能的嵌入式系统，可编程片上系统SOPC System On Programmable Chip是一种基于SOC同时具备现场可编程门阵列(FPGA，Field Programmable Gate Array)的特殊嵌入式系统，具有灵活的设计方式。由于SOPC具备软硬件协同系统编程的能力，因此被广泛应用于空间、星载高性能，高可靠计算系统上。

SOPC中包括以FPGA实现的可编程逻辑PL端Programmable Logic及以ARM可编程系统实现的处理器系统PS端Processor System。PS端通过嵌入式软件编程实现控制PL端，PL端负责用户任务的执行。PL端的FPGA芯片采用CMOS工艺技术制备，FPGA芯片内部包含有大量的可编程逻辑资源，控制这些编程逻辑资源的配置存储器CRAM以及存储数据的块存储器BRAM非常容易受到粒子翻转效应的影响从而产生软故障和硬故障，硬故障主要指器件在太空高辐射环境下，被太空高能粒子轰击而产生的硬件损坏故障，由于硬件结构被损坏，所以硬故障无法恢复。软故障则指同样在太空高能粒子的轰击下，并没有对器件的硬件内部结构造成物理损坏，而是导致器件的内部电路逻辑状态发生翻转以及存储器存储的数据发生随机改变，这类错误一般为随机瞬时可恢复性错误。

为了提升FPGA的可靠性和容错能力，针对粒子翻转产生的故障，国内外提出了一系列的容错方法，根据目标环境、可靠性需求、配置技术类型可以分为基于芯片制造工艺的硬件加固技术和基于系统设计改进的容错技术。

基于芯片制造工艺的硬件加固技术主要是从工艺设计方面来提高器件的容错性能。一般多为对产品的封装材料或单元结构进行抗辐射设计，增强器件对辐射的屏蔽功能。这种容错方法对工艺制造技术要求高，代价高昂，而且随着集成电路尺寸越来越小，工艺加固一旦失效就会导致整个电路的逻辑功能失效，且无法自动修复，严重时会造成系统瘫痪。

基于系统设计改进的容错技术主要从门级、系统级容错、器件级、纠检验设计入手，研究如何在发生粒子翻转的情况下使得系统能够不受影响，正常工作。包括冗余容错技术、纠检错码技术、可重构容错技术等。可重构容错技术主要采用刷新的方式对FPGA中的逻辑资源进行重配置，可以分为局部重构和全局重构。局部重构是将FPGA的逻辑资源划分为静态区域以及动态可重构区域，静态区域主要放置一些辅助用户任务执行的模块，动态可重构区域中的可重构模块执行用户任务，得到用户任务的执行结果，然后对可重构模块的执行结果进行投票，判断是否存在可重构模块发生故障，若是，则对故障可重构模块进行局部重构，实现对可重构模块的修复，否则，可重构模块将继续执行用户任务。

例如，申请公布号CN 111338833 A，名称为“一种基于BRAM检测的动态自适应SRAM型FPGA系统容错方法”，公开了一种基于BRAM检测的动态自适应SRAM型FPGA系统容错方法，该方法能够依据辐射环境的情况，计算单粒子翻转率调节系统的不同冗余结构，提高用户任务的可靠性，但其存在的不足之处在于仅依赖外部坏境辐射调节冗余结构，没有考虑用户任务执行时间、故障修复时间以及任务执行截止时间，导致用户可用度和资源的利用率较低。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出了一种基于任务等级的动态自适应SOPC容错方法，旨在保持较高任务可靠性的同时，提高用户可用度和资源利用率。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)构建动态自适应可编程片上系统SOPC：

构建包括通过AXI总线连接的PS端和PL端的动态自适应可编程片上系统SOPC；所述PS端包括通过ARM可编程系统实现的控制模块；所述PL端包括存储器DDR和内部配置访问端口ICAP，以及通过FPGA实现的H个ECC BRAM故障刷新器、累加器和N个可重构模块，N≥1，H≥1；

(2)内部配置访问端口ICAP向FPGA加载用户任务A的全局比特流：

内部配置访问端口ICAP根据PS端发送的使能信号和写指令，将PS端发送的用户任务A的全局比特流加载至FPGA中；

(3)FPGA进行区域划分：

FPGA依据用户任务A的全局比特流，将所有ECC BRAM故障刷新器和累加器划分为静态区域，将N个可重构模块划分为动态可重构区域；

(4)静态区域获取粒子翻转信号数量：

(4a)静态区域中的每个ECC BRAM故障刷新器在两个时间段分别连续读取FPGA包含的块存储器BRAM中存储的n个数据

和

并对每次读取的数据D_i ¹和D_i ²进行异或操作，得到校验码集合

和

再对

和

中的每个bit进行异或操作，得到校验码集合J＝{J₁,J₂,...,J_i,...,J_n}，其中

和

分别表示两个时间段读取的包含z个字节的第i个数据，J_i表示包含Z个bit的第i个校验码，n≥1，z≥256，Z≥22；

(4b)每个ECC BRAM故障刷新器判断J_i＝0是否成立，若是，则

未发生故障，执行步骤(4f)，否则，则

发生故障，执行步骤(4c)；

(4c)每个ECC BRAM故障刷新器判断J_i中是否存在值为1的11个bit，若是，则

发生单粒子翻转SEU，执行步骤(4d)，否则，

发生多粒子翻转，执行步骤(4e)；

(4d)每个ECC BRAM故障刷新器产生单粒子翻转信号sbit_err，并将sbit_err发送至累加器,同时寻找

中发生单粒子翻转SEU的bit，并对发生单粒子翻转SEU的bit的值进行翻转，实现对

的修复，再将修复后的

存储至块存储器BRAM中后，执行步骤(4f)；

(4e)ECC BRAM故障刷新器产生多粒子翻转信号dbit_err，并将dbit_err发送至累加器；

(4f)累加器在时钟周期T_SEU内对静态区域中所有ECC BRAM故障刷新器产生sbit_err的数量B_SEU，以及产生sbit_err和dbit_err的总数B_ALL进行累计，并将B_SEU和B_ALL通过AXI总线发送至PS端；

(5)PS端对用户任务A的任务等级进行评估：

(5a)控制模块根据B_SEU和B_ALL计算块存储器BRAM中产生sbit_err的概率P_SEU，并根据P_SEU计算用户任务A从发生故障到修复故障所需的时间间隔T_wait：

其中，N_execu表示PL端中除用户任务A外其他用户任务的可重构模块的总数量，T_conf表示可重构模块平均重置时间，

表示向上取整；

(5b)控制模块计算可重构模块发生故障的累计时间T_failure和用户任务A执行完成所剩余的时间T_slack：

T_failure＝T_F+T_wait

T_slack＝T_deadline-T_A-T_failure

其中，T_F表示用户任务A中可重构模块故障后必要的容错时间，T_deadline和T_A分别表示用户任务A执行截止时间和正常运行时间；

(5c)控制模块判断T_A+T_rec+T_rs+T_wait≤T_deadline-T_slack是否成立，若是，则将用户任务A的任务等级划分为三等，否则，执行步骤(5d)，其中，T_rec表示PS端加载部分比特流所需的时间，T_rs表示用户任务A发生故障的可重构模块复位后执行到发生故障前相同位置所需要的时间；

(5d)控制模块判断T_A+T_l≤T_deadline-T_slack是否成立，若是，则将用户任务A的任务等级划分为二等，否则，将用户任务A的任务等级划分为一等，其中，T_l表示在用户任务A的比特流中定位故障的时间，0≤T_l≤T_rec；

(6)PS端向内部配置访问端口ICAP发送配置信息：

控制模块依据用户任务A的任务等级选取用户任务A的M个部分比特流，并按照从1到M的顺序对M个部分比特流进行标记，然后将M个部分比特流以及使能信号和写指令作为配置信息，通过AXI总线发送至内部配置访问端口ICAP，1≤M≤N；

(7)内部配置访问端口ICAP向动态可重构区域加载部分比特流：

内部配置访问端口ICAP依据使能信号以及写指令，将M个部分比特流加载至动态可重构区域中的M个可重构模块中，得到用户任务A的M模冗余结构；

(8)每个加载部分比特流的可重构模块执行用户任务A：

用户任务A的M模冗余结构中的每个可重构模块根据自身加载的部分比特流对用户任务A进行逻辑计算，得到用户任务A的M个执行结果，并将M个执行结果通过AXI总线发送至PS端；

(9)PS端判断每个可重构模块是否发生故障：

控制模块对每个执行结果进行投票，并通过AXI总线将得票最多的执行结果发送至用户，同时判断每个加载有部分比特流的可重构模块对应的执行结果的得票数量是否最多，若是，则该可重构模块未发生故障，并执行步骤(8)，否则，依据该可重构模块的序号从存储器DDR中读取部分比特流，并通过AXI总线将读取的部分比特流，以及使能信号和写指令发送至内部配置访问端口ICAP；

(10)内部配置访问端口ICAP向发生故障的可重构模块加载部分比特流：

内部配置访问端口ICAP依据使能信号和写指令，通过读取的部分比特流对发生故障的可重构模块原有的部分比特流进行覆盖，实现本次对发生故障的可重构模块的修复。

本发明与现有技术相比，具有如下优点：

本发明的PS端通过计算用户任务A的执行时间，任务执行截止时间以及故障修复时间，对用户任务A的任务等级进行划分，控制模块依据任务等级选取用户任务A的M个部分比特流，动态调整用户任务M模冗余结构，能够在保持较高任务可靠性的同时，将剩余的资源提供给其他用户任务，克服了现有技术仅依赖SEU率划分三个等级，且在相同SEU率下，所有的用户任务均只采用一种冗余结构的灵活性较低的缺陷，有效提升用户可用度和资源利用率。

附图说明

图1是本发明的实现流程图。

图2是本发明构建的动态自适应可编程片上系统SOPC及FPGA区域划分的结构示意图。

图3是本实施例的静态区域获取粒子翻转信号数量示意图。

图4是本实施例内部配置访问端口ICAP向动态可重构区域加载部分比特流示意图。

图5是本实施例中动态调整用户任务冗余结构示意图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)构建动态自适应可编程片上系统SOPC，其结构如图2所示：

构建包括通过AXI总线连接的PS端和PL端的动态自适应可编程片上系统SOPC；所述PS端包括通过ARM可编程系统实现的控制模块；所述PL端包括存储器DDR和内部配置访问端口ICAP，以及通过FPGA实现的30个ECC BRAM故障刷新器、累加器和20个可重构模块。

步骤2)内部配置访问端口ICAP向FPGA加载用户任务A的全局比特流：

采用Vivado 2019.1开发软件通过可重构容错技术设计的用户任务A产生全局比特流以及部分比特流，其中全局比特流主要包括静态区域设计以及初始化动态可重构区域，部分比特流主要是执行用户任务A。其中本实施例中用户任务A是加法器，在一定时间间隔内读取加法器中寄存器的数值作为可重构模块的执行结果。用户需要提前将用户任务A及其他用户任务的全局比特流以及部分比特流存放至存储器DDR中，在本实施例中，PS端从存储器DDR中读取用户任务A的全局比特流，并将全局比特流通过AXI总线发送至内部配置访问端口ICAP，然后将使能信号和写指令通过AXI总线发送内部配置访问端口，内部配置访问端口ICAP依据PS端发送的使能信号及写指令，将用户任务A的全局比特流加载至FPGA中。

步骤3)FPGA进行区域划分，划分结果如图2所示：

本发明采用的是Xilinx公司的ZYNQ ZYNQ7000开发平台，该平台是基于XC7Z010-1CLG400C核心处理器的片上系统，该SOPC系统包括PS端以及PL端，PL端包括存储器DDR，内部配置访问端口ICAP及FPGA，FPGA依据步骤2)中的用户任务A的全局比特流，将30个ECCBRAM故障刷新器和1个累加器划分为静态区域，将20个可重构模块划分为动态可重构区域，累加器在用户设定的时钟周期T_SEU内对静态区域中所有ECC BRAM故障刷新器检测到的粒子翻转信号进行累计，并将累计结果发送至PS端；每个可重构模块用户执行用户任务A的部分比特流。

步骤4)静态区域获取粒子翻转信号数量：

步骤4a)静态区域中的每个ECC BRAM故障刷新器在两个时间段分别连续读取FPGA包含的块存储器BRAM中存储的n＝64个数据

和

并对读取的数据

和

按公式进行异或操作，得到校验码集合

和

其中

和

分别表示两个时间段读取的包含z＝256个字节的第i个数据，

和

分别包含Z＝24个bit，其中包括6个bit的列校验和16bit的行校验，剩余2bit置1。

对每次读取的数据

和

进行异或操作得到行校验位的计算公式为：

行校验位的异或规则是：s＝x/2，当x％2＝0时，则从D_i,0开始连续对2^s个字节进行异或操作，再跳过2^s个字节，往复循环直至对D_i中所有字节进行异或操作；否则，从

开始连续对2^s个字节进行异或操作，再跳过2^s个字节，往复循环直至对D_i中所有字节进行异或操作。

其中，J_i,x表示校验码J_i中的第x个校验位，‘/’表示整除，‘％’表示取余，‘*’表示1或者2，

表示异或操作，0≤x≤15。

对每次读取的数据

和

进行异或操作得到列校验位的计算公式为：

其中，

表示数据

中第j个字节

的第y个bit，0≤j≤255，0≤y≤7；

再对

和

中的每个bit按公式进行异或操作，得到校验码集合J＝{J₁,J₂,...,J_i,...,J₆₄}。

1≤k≤24

其中，

表示

的第k个校验位。

步骤4b)每个ECC BRAM故障刷新器判断J_i＝0是否成立，若是，则

未发生故障，执行步骤4f)，否则，则

发生故障，执行步骤4c)。

步骤4c)每个ECC BRAM故障刷新器判断J_i中是否存在值为1的11个bit，若是，则

发生单粒子翻转SEU，执行步骤4d)，否则，

发生多粒子翻转DEU，执行步骤4e)。

步骤4d)每个ECC BRAM故障刷新器产生单粒子翻转信号sbit_err，并将sbit_err发送至累加器,同时将J_i中的J_i,15,J_i,13,J_i,11,J_i,9,J_i,7,J_i,5,J_i,3,J_i,1作为

的行地址，将0及J_i中的J_i,21,J_i,19,J_i,17的组合0,J_i,21,J_i,19,J_i,17作为

的列地址，寻找

中发生单粒子翻转SEU的bit,并对发生单粒子翻转SEU的bit的值进行翻转，实现对

的修复，再将修复后的

存储至块存储器BRAM中后，执行步骤4f)。

步骤4e)ECC BRAM故障刷新器产生多粒子翻转信号dbit_err，并将dbit_err发送至累加器。

步骤4f)累加器在时钟周期T_SEU内对静态区域中所有ECC BRAM故障刷新器产生sbit_err的数量B_SEU，以及产生sbit_err和dbit_err的总数B_ALL进行累计，并将B_SEU和B_ALL通过AXI总线发送至PS端，如图3所示。

步骤5)PS端对用户任务A的任务等级进行评估：

步骤5a)控制模块根据B_SEU和B_ALL计算块存储器BRAM中产生sbit_err的概率P_SEU，并根据P_SEU计算用户任务A从发生故障到开始被处理所需的时间间隔T_wait:

表示向上取整。

T_wait与当时的故障可重构模块数量相关，如果有大量的故障可重构模块被需要处理，用户任务A就会等待较长时间，如果用户任务A被处理之前没有待处理的其他用户任务的故障可重构模块，用户任务A就可以被及时处理。

本实施例中由于环境中的辐射导致FPGA发生粒子翻转的概率较低，故P_SEU＝0，因此T_wait＝0。

步骤5b)控制模块计算可重构模块发生故障的累计时间T_failure和用户任务A执行完成所剩余的时间T_slack,当有故障出现时，T_slack会因为处理故障而减小，当T_slack不足以支持任务故障后处理时间时就会超过任务的截止时间，这对于某些任务来说将造成严重的后果。

T_failure＝T_F+T_wait

T_slack＝T_deadline-T_A-T_failure

其中，T_F表示用户任务A中可重构模块故障后必要的容错时间，T_deadline和T_A分别表示用户任务A执行截止时间和正常运行时间。

T_F表示故障后必要的容错时间，根据不同的容错策略存在较大的差异：

对于三模冗余的容错策略来说，一次故障后用户任务不间断，T_F＝0，由于可以不立即对故障进行修复，此处T_wait＝0。

对于双模热备份，则要考虑故障模块定位花费的时间，此时T_F＝T_l，由于也可以不立即对故障进行修复，此处T_wait＝0。

当采用单模执行加冷备份容错策略时，T_F＝T_rec+T_rs，由于任务需要重配置后才能继续执行，其中，T_rec表示PS端加载部分比特流所需的时间，T_rs表示用户任务A发生故障的可重构模块复位后执行到发生故障前相同位置所需要的时间。

本实施例中，T_deadline＝20s，T_l＝5s，T_rec＝5s，T_rs＝3，T_A＝18s，T_F＝0s故T_slack＝T_deadline-T_A-T_F＝20s-18s＝2s。

步骤5c)控制模块判断T_A+T_rec+T_rs+T_wait≤T_deadline-T_slack是否成立，若是，则将用户任务A的任务等级划分为三等，否则，执行步骤(5d)。

步骤5d)控制模块判断T_A+T_l≤T_deadline-T_slack是否成立，若是，则将用户任务A的任务等级划分为二等，否则，将用户任务A的任务等级划分为一等。

本实施例中T_deadline-T_slack＝20s-2s＝18s，任务等级划分为三等的计算公式得：T_A+T_rec+T_rs＝18s+5s+3s＝26s≤T_deadline-T_slack＝18s不成立，故进行下一个任务等级判断。任务等级划分为二等的计算公式：T_A+T_l＝18s+5s＝23s≤T_A＝18s不成立，故用户任务A的任务可靠性划分为一等。

其中，当用户任务A的任务等级被评定为一等时，采用的容错策略是经典的三模冗余策略，属于主动冗余，PS端将用户任务A的三个部分比特流通过内部配置访问端口ICAP加载至可重构模块中实现，旨在检测和屏蔽故障，并保证任务在故障发生时不间断执行，实现强实时性容错，对应于实时可靠性级别任务。

当用户任务A的任务等级被评定为二等时，采用的容错策略时双模冗余策略，属于半主动冗余，PS端将用户任务A的两个部分比特流通过内部配置访问端口ICAP加载至可重构模块中实现，相比于三模冗余，它无法做到故障屏蔽和故障状态下任务完全的不间断执行，但能以尽快的速度让伴随副本接管任务执行，对应于低延时容错级别任务。

当用户任务A的任务等级被评定为三等时，采用的策略是单模无冗余策略，属于被动冗余，PS端将用户任务A的一个部分比特流通过内部配置访问端口ICAP加载至可重构模块中实现，由于单模无冗余策略只有一个可重构模块在执行用户任务A，该策略的具有较低额实时性及可靠性，故障发生后需要一定地时间重启伴随副本执行，适用于高延迟容错级别的任务。

步骤6)PS端向内部配置访问端口ICAP发送配置信息：

控制模块依据用户任务A的任务等级从存储器DDR中读取用户任务A的3个部分比特流，并以序号1,2,3对三个部分比特流进行标记，并将3个部分比特流以及使能信号和写指令作为配置信息，通过AXI总线发送至内部配置访问端口ICAP，其中使能信号和写指令与上文一致。

步骤7)内部配置访问端口ICAP向动态可重构区域加载部分比特流：

内部配置访问端口ICAP依据使能信号以及写指令，将3个部分比特流加载至动态可重构区域中的3个可重构模块中，且每一个部分比特流只能加载到一个可重构模块中，以此得到用户任务A的三模冗余结构，如图4所示。

步骤8)每个加载部分比特流的可重构模块执行用户任务A：

用户任务A的三模冗余结构中的每个可重构模块根据自身加载的部分比特流对用户任务A进行逻辑计算，得到用户任务A的3个执行结果，并将3个执行结果通过AXI总线发送至PS端；

步骤9)PS端判断每个可重构模块是否发生故障：

控制模块对每个执行结果进行投票，并通过AXI总线将得票最多的执行结果发送至用户，同时判断每个加载有部分比特流的可重构模块对应的执行结果的得票数量是否最多，若是，则该可重构模块未发生故障，并执行步骤8)，否则，依据该可重构模块的序号从存储器DDR中读取部分比特流，并通过AXI总线将读取的部分比特流，以及使能信号和写指令发送至内部配置访问端口ICAP，其中使能信号及写指令与上述一致。

步骤10)内部配置访问端口ICAP向发生故障的可重构模块加载部分比特流：

FPGA片上软故障主要是位翻转故障，根据翻转出现的位置可以分为三类：第一是逻辑功能配置位(LUT、MUX、PIP)翻转故障，是主要的故障类型，占所有敏感位故障80％以上；第二是块存储器单元位(BRAM、FF、LUT用作分布式RAM时)翻转故障，也较为常见，但通常发生在非敏感位，仅有极低的概率导致功能的失效，通常不需要特定缓解；第三是架构位(ICAP、JTAG、复位和时钟线)翻转故障，发生概率极小但通常会导致整个片上系统功能失效。上述翻转故障多是暂时的，使用SEM IP核可以修复的概率大于99.7％。

SEM IP核不仅能对配置存储器CRAM进行检测及修复，同时可以向配置存储器CRAM中注入故障，模拟辐射环境中的粒子翻转。

SEM IP核处于观察模式下，能够对配置存储器CRAM进行检测及修复，SEM IP核可以同时检测发生在配置存储器CRAM中的单粒子翻转核多粒子翻转，但仅能对单粒子翻转进行修复。向SEM IP核中输入指令O将SEM IP核的模式设置为观察模式，在该模式下，SEM IP核实时对配置存储器CRAM中的数据进行检测，SEM IP核对单粒子翻转的检测原理与ECCBRAM故障刷新器类似，也是通过ECC校验和循环冗余校验得到两个校验码，然后对两个校验码进行异或操作得到结果校验码，通过判断结果校验码的状态，进行对单粒子翻转及多粒子翻转的检测。当出现单粒子翻转时，SEM IP核能够自行检测及修复，当发生多粒子翻转时，SEM IP核仅能进行检测，不能修正。

SEM IP核处于暂态模式下，不能对配置存储器CRAM中的数据进行检测，但是却能对指定的地址的数据进行翻转，实现软故障注入。向SEM IP核中加载故障注入指令I以及故障注入地址，SEM IP核依据故障注入指令，对故障注入地址中的内容进行翻转，完成SEM IP核对系统的软故障注入。

本实施例中用SEM IP核向FPGA中的配置存储器CRAM注入故障，模拟配置存储器CRAM中发生粒子翻转。假设用户任务B初次任务等级评定为二等时，采用双模冗余结构，此处使用SEM IP核模拟故障注入，则在步骤10)之后，用户任务B需要再次进行任务等级评估，则由于T_deadline保持不变，但T_slack减少，故用户任务B在第二轮任务等级评估时，从二等转换为一等，故需要将用户任务B从双模冗余结构转换为三模冗余，故PS端将关闭信号发送至动态可重构区域中的空闲模块或任务等级较低的可重构模块，关闭可重构模块中的用户任务，同时从存储器DDR中读取用户任务B的部分比特流，并将该部分比特流、使能信号以及写指令通过AXI总线发送至内部配置访问端口ICAP，ICAP将用户任务B的部分比特流加载至可重构模块中，实现用户任务B的三模冗余结构，如图5所示。优势分析：

相关研究指出，在SOPC中PL端使用Xilinx公司的SEM IP核可以检测并修复99.7％的软错误，其中仅有0.3％的软错误发生在不常用位置而未被检出，这些软错误中仅有1％～5％的概率会造成故障发生，这些故障可以通过三模冗余或双模备份进行检出。本实施例在PL端采用SEM IP核并结合不同的冗余容错方式对软错误进行检测和修复，针对SEM IP核无法检测出0.3％的软错误所造成的故障也可以通过冗余容错方式检出，并且所有检出的软错误可以100％修复。综上所述，本发明设计的容错方法针对软故障的检出率大于99.7％，故障修复率达到100％，平均可用性在99.985％到99.997％之间，因此在可靠性方面，本实施例与现有技术相比进一步提升，同时在用户可用度及资源利用率上有较高的提升。

本实施例中主要基于任务的时效要求匹配相应的冗余策略，比所有用户任务采用一种冗余策略的方法平衡了系统可靠性和性能。在同等资源条件下，随着辐射强度的增加，满足任务的可靠性要求前提下调度性能会明显提升；在同等可靠性条件下，随着辐射强度的增加，资源利用率明显提升。不失一般性，采用以下例子进一步说明：在辐射强度最坏条件下，采用全三模冗余策略的方法会消耗大量的资源，采用本实施例中的方法可以在达到同等可靠性条件下降低资源用量，增加系统性能。同理，在辐射强度正常和较坏情况下，也体现出相同的优势。综上所述，无论在正常辐射环境，较坏辐射环境或者最坏辐射环境下，用户任务的可靠性可以得到最大保证，系统性能和可调度性进一步提升。