CN106407056A - 面向空间信息处理的可编程计算单元的检测修复系统及方法 - Google Patents

面向空间信息处理的可编程计算单元的检测修复系统及方法 Download PDF

Info

Publication number
CN106407056A
CN106407056A CN201610839796.9A CN201610839796A CN106407056A CN 106407056 A CN106407056 A CN 106407056A CN 201610839796 A CN201610839796 A CN 201610839796A CN 106407056 A CN106407056 A CN 106407056A
Authority
CN
China
Prior art keywords
data
result
programmable computing
module
computing function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610839796.9A
Other languages
English (en)
Other versions
CN106407056B (zh
Inventor
彭宇
马宁
王少军
刘大同
彭喜元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201610839796.9A priority Critical patent/CN106407056B/zh
Publication of CN106407056A publication Critical patent/CN106407056A/zh
Application granted granted Critical
Publication of CN106407056B publication Critical patent/CN106407056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Abstract

面向空间信息处理的可编程计算单元的检测修复系统及方法,本发明涉及可编程计算单元的检测修复系统及方法。本发明的目的是为了解决传统方式进行检测和修复一般需额外消耗3倍以上的计算资源和功耗,极大的影响FPGA在空间计算的性能提升和低功耗要求的问题。面向空间信息处理的可编程计算单元的检测修复系统包括:输入数据缓存模块;数据分段校验控制模块;数据处理模块;计算结果缓存模块;测试结果校验模块;结果输出控制模块;功能修复控制模块。本发明用于航天数据处理领域。

Description

面向空间信息处理的可编程计算单元的检测修复系统及方法
技术领域
本发明涉及可编程计算单元的检测修复系统及方法。
背景技术
随着载荷性能的持续提升,姿轨控系统控制精度的提高,以及空间CPS(Cyber-Physical Systems)系统、在轨自主运行管理、在轨系统健康管理、装备人工智能等先进技术理念在卫星技术领域的逐步扩展,对星载计算机(On Board Computer,OBC)的计算和信息处理能力提出了更高的挑战。由于缺乏具有自主知识产权的核心技术,以及国外在敏感技术上的封锁,我国星载计算机系统性能远落后于世界先进水平,且发展缓慢,制约了卫星系统整体性能的提升,研发新一代高性能星载计算机系统已经迫在眉睫。随着商用处理器技术的蓬勃发展,工业级的ARM,DSP,SRAM工艺FPGA以及上述处理器的组合被应用于不用类型的航天实践。上述航天实践证明,采用基于SRAM工艺FPGA计算平台,可以满足航天高性能、定制化的计算需求。但SRAM工艺FPGA在空间应用中,易受空间粒子辐射的影响,产生单粒子效应,使其功能发生破坏,一次SRAM工艺FPGA在空间应用中需要实时的检测和修复其因单粒子效应而发生的损坏。传统使用三模冗余和配置回读的方式进行检测和修复,其一般需额外消耗3倍以上的计算资源和功耗,极大的影响FPGA在空间计算的性能提升和低功耗要求。特别是针对商业小卫星和低成本卫星,其对可靠性要求并不苛刻,对计算性能和成本要求极为苛刻的条件下,传统的方式难以满足要求。
发明内容
本发明的目的是为了解决传统方式进行检测和修复一般需额外消耗3倍以上的计算资源和功耗,极大的影响FPGA在空间计算的性能提升和低功耗要求的问题,而提出面向空间信息处理的可编程计算单元的检测修复系统及方法。
面向空间信息处理的可编程计算单元的检测修复系统包括:
用于存储待处理数据的输入数据缓存模块;
用于控制输入数据缓存模块是否接收待处理数据,分时对可编程计算功能单元进行检验的数据分段校验控制模块;
用于对数据分段校验控制模块输出的待处理数据进行处理,将处理结果输出到计算结果缓存模块中的数据处理模块;
用于对数据处理模块输出的处理结果进行缓存的计算结果缓存模块;
用于对数据处理模块中关键检查点的结果进行比对分析的测试结果校验模块;
用于在接收到测试结果校验模块输出的校验结果正确后,将计算结果缓存模块中的数据进行输出的结果输出控制模块;
用于在接收到测试结果校验模块输出的校验结果错误后,将损坏的可编程计算功能单元进行修复的功能修复控制模块。
面向空间信息处理的可编程计算单元的检测修复方法具体过程为:
步骤一、将待处理数据分割成M个包含N个待处理数据点的数据段,每个待处理数据点为一个独立的被可编程计算功能单元处理并能得到结果的数据集;
将待处理数据输入数据缓存模块,数据缓存模块对输入的待处理数据进行缓存;
M为任意一个整数;N为任意一个整数;
步骤二、将数据缓存模块中的待处理数据输入到数据分段校验控制模块中,数据分段校验控制模块判断数据缓存模块中输入的待处理数据点数是否达到分段点数N;若达到,数据分段校验控制模块将停止接收待处理数据,并停止向数据处理模块过程写入待处理数据,并同时控制输入数据缓存模块停止接收待处理数据,此时将预先设定的校验测试数据输入到数据处理模块过程中进行可编程计算功能单元测试;执行步骤三;
若未达到,执行步骤二,直到数据缓存模块中输入的待处理数据点数达到分段点数N;
步骤三、在数据处理模块处理过程中,可编程计算功能单元提取出在处理过程中预先设定的关键检查点的计算结果,并将可编程计算功能单元对测试校验数据点的处理结果与可编程计算功能单元提取出在处理过程中预先设定的关键检查点的计算结果进行结果校验;数据处理模块处理过程的计算处理结果均输出到计算结果缓存模块步骤中;若校验正确,执行步骤四;若校验错误,执行步骤五;
步骤四、表明自N-1次正确校验至N次校验的这一段数据的处理过程中可编程计算功能单元未发生损坏,测试结果校验模块确定其最终测试结果校验正确,当测试结果校验正确时,输入数据缓存模块中存储的待处理数据将无需继续存储,该输入数据缓存将清零,通过结果输出控制模块输出,执行步骤二;
步骤五、表明计算过程中,可编程计算功能单元已被损坏,测试结果校验模块确定其最终结果不能输出,因此自N-1次测试校验正确至N次测试校验正确之间的数据处理结果均为不可信结果,功能修复控制模块将对可编程计算功能单元进行修复,在可编程计算功能单元功能修复后重新输入到数据处理过程进行计算,执行步骤二。
本发明的有益效果为:
本方法采用数据分段测试校验的方法对可编程计算功能单元进行检测,监测其在运行过程中,由于空间粒子辐射引发的单粒子翻转等效应造成的计算功能损害。并根据检测结果,协同调度待处理的输入数据和计算输出结果,完成对发生损坏部分的功能单元的修复。同时可标识处理数据的可信度,并能将在故障期间处理的不准确数据进行标记,重新处理。从而极大的节约运算资源,保证系统工作的可靠性,提高数据处理性能。
附图说明
图1为本发明计算功能单元数据分段测试校验及修复方法原理
图2为本发明分段测试校验及修复方法流程图。
具体实施方式
具体实施方式一:本实施方式的面向空间信息处理的可编程计算单元的检测修复系统包括:
用于存储待处理数据的输入数据缓存模块;
用于控制输入数据缓存模块是否接收待处理数据,分时对可编程计算功能单元进行检验,保证及时发现可编程计算功能单元的功能损坏的数据分段校验控制模块;
用于对数据分段校验控制模块输出的待处理数据进行处理,将处理结果输出到计算结果缓存模块中的数据处理模块;
用于确保输出的数据处理结果为可靠、正确的计算结果,对数据处理模块输出的处理结果进行缓存的计算结果缓存模块;
用于对数据处理模块中关键检查点的结果进行比对分析的测试结果校验模块;
用于在接收到测试结果校验模块输出的校验结果正确后,将计算结果缓存模块中的数据进行输出的结果输出控制模块;
用于在接收到测试结果校验模块输出的校验结果错误后,将损坏的可编程计算功能单元进行修复的功能修复控制模块。
具体实施方式二:结合图1、图2说明本实施方式,本实施方式的面向空间信息处理的可编程计算单元的检测修复方法具体步骤为:
步骤一、将待处理数据分割成M个包含N个待处理数据点的数据段,每个待处理数据点为一个独立的可以被可编程计算功能单元处理并能得到结果的数据集;
将待处理数据输入数据缓存模块,数据缓存模块对输入的待处理数据进行缓存;
M为任意一个整数;N为任意一个整数,其数值由空间故障率、每次计算时间和故障检测时间共同决定;
步骤二、将数据缓存模块中的待处理数据输入到数据分段校验控制模块中,数据分段校验控制模块判断数据缓存模块中输入的待处理数据点数是否达到分段点数N;若达到,数据分段校验控制模块:为提高计算性能并提高计算处理的可靠性,需要分时对可编程计算功能单元进行检验,保证及时发现可编程计算功能单元的功能损坏,同时,需要保证不因过多的检验导致计算性能的下降。因此在待处理数据的处理量达到一定点数后,数据分段校验控制模块将停止接收待处理数据,并停止向数据处理模块过程写入待处理数据,并同时控制输入数据缓存模块停止接收待处理数据,此时将预先设定的校验测试数据输入到数据处理模块过程中进行可编程计算功能单元测试;执行步骤三;
若未达到,执行步骤二,则将更多的数据输入到处理模块中进行处理,直到数据缓存模块中输入的待处理数据点数达到分段点数N;
步骤三、在数据处理模块处理过程中,可编程计算功能单元提取出在处理过程中预先设定的关键检查点的计算结果,并将可编程计算功能单元对测试校验数据点的处理结果与可编程计算功能单元提取出在处理过程中预先设定的关键检查点的计算结果进行结果校验;数据处理模块处理过程的计算处理结果均输出到计算结果缓存模块步骤中;若校验正确,执行步骤四;若校验错误,执行步骤五;
所述预先设定的关键检查点的计算结果为设计开始前进行提前计算得到,然后设定到模块中;
所述计算功能单元为在空间信息处理过程中用到的可编程计算功能单元,其由可编程逻辑实现,具备可重构或可重配置能力,在空间中可通过重构或重配置对其受空间环境的影响损坏的修复。
步骤四、表明自N-1次正确校验至N次校验的这一段数据的处理过程中可编程计算功能单元未发生损坏,测试结果校验模块确定其最终测试结果校验正确,当测试结果校验正确时,输入数据缓存模块中存储的待处理数据将无需继续存储,该输入数据缓存将清零,通过结果输出控制模块输出,执行步骤二;
步骤五、表明计算过程中,可编程计算功能单元已被损坏,由于可编程计算功能单元发生功能损坏后,可编程计算功能单元进行的数据处理至下次修复前的处理结果均为错误的结果,测试结果校验模块确定其最终结果不能输出,因此自N-1次测试校验正确至N次测试校验正确之间的数据处理结果均为不可信结果,功能修复控制模块将对可编程计算功能单元进行修复,为保证这部分已经进行计算的数据,在可编程计算功能单元功能修复后重新输入到数据处理过程进行计算,在原始数据输入时,数据缓存模块对原始数据点进行缓存处理,数据缓存模块缓存区的深度大于等于在两次校验之间原始数据点数据集的数据量,执行步骤二。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤三中测试校验数据点为已知的固定数据集,其可以作为测试用例完成对计算功能单元的内部各部分的校验测试。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述步骤三中可编程计算功能单元对测试校验数据点的处理结果为已知。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:所述步骤三中在数据处理模块处理过程中,可编程计算功能单元提取出在处理过程中预先设定的关键检查点的计算结果,并将可编程计算功能单元对测试校验数据点的处理结果与可编程计算功能单元提取出在处理过程中预先设定的关键检查点的计算结果进行结果校验;具体过程为:
根据在每次输入到可编程计算功能单元的测试点的处理结果,通过判断测试结果与已知结果是否一致从而判断可编程计算功能单元是否发生功能损坏,从而产生判断结果。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是:所述步骤五中功能修复控制模块将对可编程计算功能单元进行修复,修复方法具体为:
重配置可编程计算功能单元的计算功能区、重配置可编程计算功能单元全局功能区。
其它步骤及参数与具体实施方式一至五之一相同。

Claims (6)

1.面向空间信息处理的可编程计算单元的检测修复系统,其特征在于:面向空间信息处理的可编程计算单元的检测修复系统包括:
用于存储待处理数据的输入数据缓存模块;
用于控制输入数据缓存模块是否接收待处理数据,分时对可编程计算功能单元进行检验的数据分段校验控制模块;
用于对数据分段校验控制模块输出的待处理数据进行处理,将处理结果输出到计算结果缓存模块中的数据处理模块;
用于对数据处理模块输出的处理结果进行缓存的计算结果缓存模块;
用于对数据处理模块中关键检查点的结果进行比对分析的测试结果校验模块;
用于在接收到测试结果校验模块输出的校验结果正确后,将计算结果缓存模块中的数据进行输出的结果输出控制模块;
用于在接收到测试结果校验模块输出的校验结果错误后,将损坏的可编程计算功能单元进行修复的功能修复控制模块。
2.面向空间信息处理的可编程计算单元的检测修复方法,其特征在于:面向空间信息处理的可编程计算单元的检测修复方法具体过程为:
步骤一、将待处理数据分割成M个包含N个待处理数据点的数据段,每个待处理数据点为一个独立的被可编程计算功能单元处理并能得到结果的数据集;
将待处理数据输入数据缓存模块,数据缓存模块对输入的待处理数据进行缓存;
M为任意一个整数;N为任意一个整数;
步骤二、将数据缓存模块中的待处理数据输入到数据分段校验控制模块中,数据分段校验控制模块判断数据缓存模块中输入的待处理数据是否达到分段点数N;若达到,数据分段校验控制模块将停止接收待处理数据,并停止向数据处理模块过程写入待处理数据,并同时控制输入数据缓存模块停止接收待处理数据,此时将预先设定的校验测试数据输入到数据处理模块过程中进行可编程计算功能单元测试;执行步骤三;
若未达到,执行步骤二,直到数据缓存模块中输入的待处理数据点数达到分段点数N;
步骤三、在数据处理模块处理过程中,可编程计算功能单元提取出在处理过程中预先设定的关键检查点的计算结果,并将可编程计算功能单元对测试校验数据点的处理结果与可编程计算功能单元提取出在处理过程中预先设定的关键检查点的计算结果进行结果校验;数据处理模块处理过程的计算处理结果均输出到计算结果缓存模块步骤中;若校验正确,执行步骤四;若校验错误,执行步骤五;
步骤四、表明自N-1次正确校验至N次校验的这一段数据的处理过程中可编程计算功能单元未发生损坏,测试结果校验模块确定其最终测试结果校验正确,当测试结果校验正确时,输入数据缓存模块中存储的待处理数据将无需继续存储,该输入数据缓存将清零,通过结果输出控制模块输出,执行步骤二;
步骤五、表明计算过程中,可编程计算功能单元已被损坏,测试结果校验模块确定其最终结果不能输出,则自N-1次测试校验正确至N次测试校验正确之间的数据处理结果均为不可信结果,功能修复控制模块将对可编程计算功能单元进行修复,在可编程计算功能单元功能修复后重新输入到数据处理过程进行计算,执行步骤二。
3.根据权利要求2所述面向空间信息处理的可编程计算单元的检测修复方法,其特征在于:所述步骤三中测试校验数据点为已知的固定数据集。
4.根据权利要求3所述面向空间信息处理的可编程计算单元的检测修复方法,其特征在于:所述步骤三中可编程计算功能单元对测试校验数据点的处理结果为已知。
5.根据权利要求4所述面向空间信息处理的可编程计算单元的检测修复方法,其特征在于:所述步骤三中在数据处理模块处理过程中,可编程计算功能单元提取出在处理过程中预先设定的关键检查点的计算结果,并将可编程计算功能单元对测试校验数据点的处理结果与可编程计算功能单元提取出在处理过程中预先设定的关键检查点的计算结果进行结果校验;具体过程为:
根据在每次输入到可编程计算功能单元的测试点的处理结果,通过判断测试结果与已知结果是否一致从而判断可编程计算功能单元是否发生功能损坏,从而产生判断结果。
6.根据权利要求5所述面向空间信息处理的可编程计算单元的检测修复方法,其特征在于:所述步骤五中功能修复控制模块将对可编程计算功能单元进行修复,修复方法具体为:
重配置可编程计算功能单元的计算功能区、重配置可编程计算功能单元全局功能区。
CN201610839796.9A 2016-09-21 2016-09-21 面向空间信息处理的可编程计算单元的检测修复系统及方法 Active CN106407056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610839796.9A CN106407056B (zh) 2016-09-21 2016-09-21 面向空间信息处理的可编程计算单元的检测修复系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610839796.9A CN106407056B (zh) 2016-09-21 2016-09-21 面向空间信息处理的可编程计算单元的检测修复系统及方法

Publications (2)

Publication Number Publication Date
CN106407056A true CN106407056A (zh) 2017-02-15
CN106407056B CN106407056B (zh) 2019-06-11

Family

ID=57998166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610839796.9A Active CN106407056B (zh) 2016-09-21 2016-09-21 面向空间信息处理的可编程计算单元的检测修复系统及方法

Country Status (1)

Country Link
CN (1) CN106407056B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109672470A (zh) * 2018-12-28 2019-04-23 航天东方红卫星有限公司 一种小卫星星上软件上注和重构地面测试验证方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036909A1 (en) * 2004-08-13 2006-02-16 Seakr Engineering, Incorporated Soft error detection and recovery
CN101551763A (zh) * 2009-05-15 2009-10-07 中国人民解放军国防科学技术大学 现场可编程逻辑门阵列中单粒子翻转的修复方法及装置
CN102354294A (zh) * 2011-08-23 2012-02-15 西安空间无线电技术研究所 一种星载dsp芯片的空间单粒子翻转检测方法
CN104216791A (zh) * 2013-05-30 2014-12-17 上海斐讯数据通信技术有限公司 一种校验Flash存储数据的方法
CN104579313A (zh) * 2014-12-30 2015-04-29 北京控制工程研究所 一种基于配置帧的在轨sram型fpga故障检测与修复方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036909A1 (en) * 2004-08-13 2006-02-16 Seakr Engineering, Incorporated Soft error detection and recovery
CN101551763A (zh) * 2009-05-15 2009-10-07 中国人民解放军国防科学技术大学 现场可编程逻辑门阵列中单粒子翻转的修复方法及装置
CN102354294A (zh) * 2011-08-23 2012-02-15 西安空间无线电技术研究所 一种星载dsp芯片的空间单粒子翻转检测方法
CN104216791A (zh) * 2013-05-30 2014-12-17 上海斐讯数据通信技术有限公司 一种校验Flash存储数据的方法
CN104579313A (zh) * 2014-12-30 2015-04-29 北京控制工程研究所 一种基于配置帧的在轨sram型fpga故障检测与修复方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109672470A (zh) * 2018-12-28 2019-04-23 航天东方红卫星有限公司 一种小卫星星上软件上注和重构地面测试验证方法及系统
CN109672470B (zh) * 2018-12-28 2021-04-13 航天东方红卫星有限公司 一种小卫星星上软件上注和重构地面测试验证方法及系统

Also Published As

Publication number Publication date
CN106407056B (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
Gokhale et al. Dynamic reconfiguration for management of radiation-induced faults in FPGAs
US20230342283A1 (en) Waveform based reconstruction for emulation
Sari et al. Scrubbing-based SEU mitigation approach for Systems-on-Programmable-Chips
EP2631803B1 (en) Methods and apparatus for automatic fault detection
CN108710551A (zh) 基于sparc处理器单粒子翻转故障注入的测试方法及系统
CN104635144A (zh) 一种不依赖基准曲线的硬件木马检测方法
CN103150228A (zh) 面向高速缓冲存储器的可综合伪随机验证方法及装置
US8453082B2 (en) Soft error verification in hardware designs
CN105512372B (zh) 模型化的星载数据处理仿真测试方法
CN106407056A (zh) 面向空间信息处理的可编程计算单元的检测修复系统及方法
CN105609139B (zh) Sram型fpga中子单粒子效应试验控制方法与装置
Xie et al. An automated FPGA-based fault injection platform for granularly-pipelined fault tolerant CORDIC
US7912693B1 (en) Verifying configuration memory of a programmable logic device
US7676776B2 (en) Spare gate array cell distribution analysis
CN103514071B (zh) 非破坏性的内存在线测试方法
US20220269846A1 (en) Structural analysis for determining fault types in safety related logic
CN110596488A (zh) 基于hpi接口的dsp电离总剂量辐射效应检测装置
CN112798944B (zh) 基于在线实时数据的fpga硬件错误归因分析方法
CN114661531A (zh) 一种针对fpga的细粒度自修复电路和方法
Alexandrescu et al. Fault injection and fault tolerance methodologies for assessing device robustness and mitigating against ionizing radiation
Anjankar et al. Fault Tolerant and Correction System Using Triple Modular Redundancy
Zhang et al. Real-time redundant scrubbing (RRS) system for radiation protection on SRAM-based FPGA
Keshk et al. Fault injection in dynamic partial reconfiguration design based on essential bits
Lee et al. Enhanced Soft Error Rate Estimation Technique for Aerospace Electronics Safety Design via Emulation Fault Injection
Hane A fault-tolerant computer architecture for space vehicle applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant