CN112799862A - 面向辐射环境的cpu抗seu效应的可靠性建模与评估方法 - Google Patents

面向辐射环境的cpu抗seu效应的可靠性建模与评估方法 Download PDF

Info

Publication number
CN112799862A
CN112799862A CN202011631160.8A CN202011631160A CN112799862A CN 112799862 A CN112799862 A CN 112799862A CN 202011631160 A CN202011631160 A CN 202011631160A CN 112799862 A CN112799862 A CN 112799862A
Authority
CN
China
Prior art keywords
cfm
cpu
reliability
state
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011631160.8A
Other languages
English (en)
Other versions
CN112799862B (zh
Inventor
顾晶晶
董志腾
庄毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202011631160.8A priority Critical patent/CN112799862B/zh
Publication of CN112799862A publication Critical patent/CN112799862A/zh
Application granted granted Critical
Publication of CN112799862B publication Critical patent/CN112799862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,包括以下步骤:以CPU不同功能模块为单位,采用Z语言对CPU进行分级建模,自底向上建立可靠性评估模型FMRE‑Z;对不同CPU功能模块CFM进行进一步划分,分析CFM各个组件的实时运行状态以及状态转移关系,进行马尔可夫链建模,并计算CFM的可靠性;基于CFM运行状态的可靠性概率,利用贝叶斯网络,计算CPU整体可靠性,依据所建立的贝叶斯网络模型,反向推理并识别出可靠性关键模块。本发明将CPU进行模块化抽象,结合了Z语言建模、马尔可夫链和贝叶斯网络的优点,可以对CPU整体以及各个CFM进行有效的可靠性分析与评估。

Description

面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法
技术领域
本发明属于可靠性、形式化建模与验证领域,特别是一种面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法。
背景技术
人们对计算机性能要求的不断提高驱使着计算机硬件工艺的不断发展,计算机CPU晶体管尺寸也越来越小,这使得CPU更容易收到外界环境的影响。CPU的可靠性分析成为亟待解决的问题。
CPU(Central Processing Unit)中央处理器,是计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。CPU主要由缓冲存储器(CACHE)、预取单元(PFU,Prefetch Unit)、内存保护单元(MPU,Memory Protection Unit)、负载存储单元(LSU,Load/Store Unit)以及数据处理单元(DPU,Data Processing Unit)五个功能模块组成,这些功能模块统称CFM。每个功能模块CFM又由多个部件组成,以缓冲存储器Cache为例,与缓冲存储器Cache相关的CPU组件共有4个:(1)数据缓存控制器(L1-DCACHE)及其RAM,(2)指令缓存控制器(L1-ICACHE)及其RAM,(3)AXI总线主接口(CACHE-AXIM),以及(4)AXI总线从接口(CACHE-AXIS)。
为了准确地对CPU的可靠性进行建模,需要先明确CPU的硬件结构模型。即缓冲存储器(CACHE)、预取单元(PFU,Prefetch Unit)、内存保护单元(MPU,Memory ProtectionUnit)、负载存储单元(LSU,Load/Store Unit)以及数据处理单元(DPU,Data ProcessingUnit)五个CFM。所以需要从这些CFM的组成部件出发来为CPU可靠性进行建模和评估。
传统的可靠性研究技术主要包含可靠性框图、故障树、事件树等。可靠性框图可以将系统的整体与部分故障之间的逻辑关系表示出来,系统的可靠性依赖于部分的可靠性,但是不能准确的描述一个动态系统的可靠性;故障树把系统最不希望发生的故障作为故障分析的目标,把选定的部分故障状态称为顶事件,然后找出引起顶事件的底层事件,但只具备单向推导的能力。由于CPU的日益复杂,传统方法愈来愈难以描述其动态特征,也难以反映CPU可靠性与时间的相关性。
贝叶斯网络(BayesianNetwork)简称BN,是一种概率网络,它由代表变量的节点以及连接这些节点的有向边构成的有向无环图表示。BN适用于表达和分析不确定性事物,具备描述事件多态性和非确定性逻辑关系的能力。贝叶斯网络能很好的表示变量的随机不确定性和相关性。因此将BN技术应用于多状态的系统可靠性评估,可以使CPU各个功能模块之间的多状态关系表达的更清晰准确。
形式化描述语言Z语言由著名数学家Zermelo命名,它是使用最广泛的一种形式化描述语言,在软件产业的一些大型项目中已经获得成功的应用,Z以带等词的一阶谓词逻辑ZF(Zermelo-Fraenkel,蔡梅罗-弗兰科尔)公理集合论为主要数学基础。在Z中有两种语言:数学语言和模式(Schema)语言。数学语言用来描述系统的各种特征:对象及其之间的关系。模式语言是一种半图形化的语言,它用来构造、组织形式化说明的描述、整理、封装信息块并对其命名以便可以重用这些信息块。通常,形式化说明的可读性都不太好,但由于Z采用半图形化的模式语言,能用一种比较直观、有条理的方式来表达形式化说明,这就改善了可读性。与其他形式化方法相比,Z语言具有很强的描述能力、支持可扩展、建模形式呈现模块化等优点,这些优点使其成为软件形式化建模常用方法之一。
发明内容
本发明的目的在于针对辐射环境下CPU易发生单粒子效应的问题,提供一种运用Z语言、连续时间马尔可夫链CTMC和贝叶斯网络BN的CPU抗SEU效应的可靠性建模与评估方法,能够以位子约束的形式对CPU可靠性进行描述,从而进行形式化验证,具有良好的可扩展性。
实现本发明目的的技术解决方案为:一种面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,所述方法包括以下步骤:
步骤1,提取CPU设计中的可靠性相关信息,使用Z语言对CPU进行分级建模,以CPU功能模块CFM为单位,自下而上地建立FMRE-Z模型;
步骤2,依据FMRE-Z模型描述的CFM状态的连续时间关系,采用连续时间的马尔可夫链CTMC描述FMRE-Z模型,为每一个CFM建立CTMCCFM模型,对CFM的可靠性进行评估;
步骤3,依据步骤2中得到的CFM可靠性概率,建立CPU整体的概率拓扑关系,再基于贝叶斯网络,建立CPU整体可靠性评估模型CPURE-BN,该模型为“总-分”模式,描述CPU整体失效率与五个功能模块CFM失效率的拓扑关系;之后基于CPURE-BN模型评估CPU整体的可靠性;
步骤4,依据步骤3中得到的CPURE-BN模型,计算不同CFM对CPU整体可靠性的影响程度,依据影响程度获取可靠性关键CFM。
本发明与现有技术相比,其显著优点为:1)本发明采用分级建模的形式,以CPU功能模块为单位,建立可靠性模型,易于理解,简洁清晰且模型不会臃肿;2)继承了Z语言强大的数据约束能力和良好的可扩展性,可以对概率进行描述,并能方便的添加可靠性元素;3)引入连续时间的马尔可夫模型,反映CPU的可靠性与时间的相关性;并引入马尔可夫链描述CFM的状态转换关系;4)将BN技术应用于多状态的系统可靠性评估,可以使CPU各个功能模块之间的多状态关系表达的更清晰准确,可以正向推理CPU可靠性概率,同时又可以反向推理可靠性关键模块。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法的流程图。
图2为CFM失效率拓扑关系和状态空间示意图,其中图(a)为CFM失效率拓扑关系,(b)和(c)为CFM失效率状态空间。
图3为典型CPU功能模块CFM状态转移图。
图4为典型CPU结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
结合图1,本发明提供了一种面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,所述方法包括以下步骤:
步骤1,提取CPU设计中的可靠性相关信息,使用Z语言对CPU进行分级建模,以CPU功能模块CFM为单位,自下而上地建立FMRE-Z模型;
步骤2,依据FMRE-Z模型描述的CFM状态的连续时间关系,采用连续时间的马尔可夫链CTMC描述FMRE-Z模型,为每一个CFM建立CTMCCFM模型,对CFM的可靠性进行评估;
步骤3,依据步骤2中得到的CFM可靠性概率,建立CPU整体的概率拓扑关系,再基于贝叶斯网络,建立CPU整体可靠性评估模型CPURE-BN,该模型为“总-分”模式,描述CPU整体失效率与五个功能模块CFM失效率的拓扑关系;之后基于CPURE-BN模型评估CPU整体的可靠性;
步骤4,依据步骤3中得到的CPURE-BN模型,计算不同CFM对CPU整体可靠性的影响程度,依据影响程度获取可靠性关键CFM。
进一步地,在其中一个实施例中,步骤1中FMRE-Z模型表示为一个三元组:
FMRE-Z=(ERCFM,StateCFM,STRCFM)
式中,ERCFM表示CFM的失效率,StateCFM表示CFM的状态空间,STRCFM表示状态转移关系。
进一步地,在其中一个实施例中,所述功能模块CFM包括缓冲存储器(CACHE)、预取单元(PFU,PrefetchUnit)、内存保护单元(MPU,MemoryProtectionUnit)、负载存储单元(LSU,Load/Store Unit)以及数据处理单元(DPU,DataProcessingUnit),上述单元的失效率分别用λCACHE、λPFU、λMPU、λLSU和λDPU表示;
其中,缓冲存储器包括数据缓存控制器及其RAM,指令缓存控制器及其RAM,AXI总线主接口,以及AXI总线从接口,这些部件的失效率分别为λL1-DCACHE、λL1-ICACHE、λCACHE-AXIM、λCACHE-AXIS,则缓冲存储器的失效率λCACHE为:
λCACHE=1-(1-λL1-DCACHE)*(1-λL1-ICACHE)*(1-λCACHE-AXIM)*(1-λCACHE-AXIS)
同理可获得λPFU、λMPU、λLSU和λDPU
进一步地,在其中一个实施例中,步骤2中所述CTMC描述为三元组:
CTMC=(I,T,t)
其中,
(1)I表示CTMC的状态空间,I={i1,i2,...,in},in表示第n种状态,n为状态空间大小;
(2)T表示CTMC的状态转移矩阵,是一个n*n的方阵,Tjk表示状态ij转移到状态ik的概率,且
Figure BDA0002874806880000041
表示第j种状态转移为其他状态或保留自身状态的概率和为1;
(3)t表示时刻。
进一步地,在其中一个实施例中,步骤2中采用连续时间的马尔可夫链CTMC描述FMRE-Z模型,为每一个CFM建立CTMCCFM模型,具体通过FMRE-Z和CTMC元素之间的元素映射规则进行转换,映射规则如下表1所示:
表1 FMRE-Z与CTMC元素之间的映射规则
Figure BDA0002874806880000051
进一步地,在其中一个实施例中,步骤2中所述对CFM的可靠性进行评估,具体包括:
步骤2-1,定义CFM失效率与时间的函数关系为:
Figure BDA0002874806880000052
式中,λCFM(t)表示t时刻CFM的失效率,λCFM表示初始时刻t=0时的失效率,Δt表示时间间隔;
步骤2-2,CFM典型状态转移矩阵T为:
Figure BDA0002874806880000053
设向量PCFM(t)=(PN(t),PR(t),PW(t),PD(t),PF(t)),该向量表示在t时刻的状态概率,其中PN(t),PR(t),PW(t),PD(t),PF(t)分别表示CFM在t时刻处于正常状态NormalState、恢复状态Recovery State、等待状态WaitingState、故障检测状态DetectedState和失效状态FailureState的概率;λRecoverable,λRecovery和λFailure分别代表可恢复、已恢复和失效的概率;
根据状态转移矩阵得到CFM的状态概率方程为:
Figure BDA0002874806880000061
步骤2-3,求解步骤2-2中的公式可得CFM在t时刻的状态概率分布,则t时刻CFM的可靠性RCFM为:
RCFM(t)=1-PF(t)。
进一步地,在其中一个实施例中,步骤3中所述基于CPURE-BN模型评估CPU可靠性,具体包括:
CPU整体的失效率PERROR表示为:
PERROR=P(y=1|x1,x2,x3,x4,x5)
式中,x1,x2,x3,x4,x5分别表示缓冲存储器、预取单元、内存保护单元、负载存储单元以及数据处理单元这五个CFM发生失效的事件,y表示CPU整体发生失效的事件;
基于CPURE-BN模型,依据CFM的失效率计算CPU整体的失效率,由此评估CPU整体的可靠性为:
P(y=0)=1-P(x1=1)*P(x2=1)*P(x3=1)*P(x4=1)*P(x5=1)
式中,P(x1=1)=λCACHE,P(x2=1)=λPFU,P(x3=1)=λMPU,P(x4=1)=λLSU,P(x5=1)=λDPU
进一步地,在其中一个实施例中,步骤4所述依据步骤3中得到的CPURE-BN模型,计算不同CFM对CPU整可靠性的影响程度,依据影响程度得到可靠性关键CFM,具体包括:
利用推理算法,计算事件xi的条件失效概率
Figure BDA0002874806880000062
Figure BDA0002874806880000063
选取条件失效概率最高的CFM为可靠性关键CFM。
下面对本发明进行详细的分析。
本发明提出针对辐射环境下CPU易发生单粒子效应,建立一种运用Z语言、连续时间马尔可夫链CTMC和贝叶斯网络BN的CPU抗SEU效应的可靠性建模与评估方法。首先需要建立CFM的可靠性模型FMRE-Z,下面给出Z语言定义,并使用形式化方法对其进行描述,以便进一步分析评估。
1、FMRE-Z模型
定义1给出了FMRE-Z模型的定义,详细描述了构成FMRE-Z模型的要素,具体定义如下:
定义1.FMRE-Z模型可以表示为一个三元组:
FMRE-Z=(ERCFM,StateCFM,STRCFM)
其中,ERCFM(Error Rate)表示CFM的失效率,StateCFM表示CFM的状态空间,STRCFM(State TransferRelationship)表示状态转移关系。一个组件发生错误后有一定的概率可以用软件方法恢复,也有一定概率无法使用软件方法恢复,我们将无法使用软件方法恢复的状态称之为失效状态FailureState。失效状态可以通过系统重启等方式恢复。
(1)失效率ERCFM
每个CFM由不同的组件构成,以Cache为例,Cache由数据缓存控制器(L1-DCACHE)及其RAM,指令缓存控制器(L1-ICACHE)及其RAM,AXI总线主接口(CACHE-AXIM),以及AXI总线从接口(CACHE-AXIS)组成,其中任意一个发生错误(Error)可视为Cache发生错误。因此对每个CFM的失效率都有如下定义:
定义2.CPU的每个功能模块由多个部件构成,CPU功能模块CFM划分如图4所示,其中对Cache和DPU进行了更进一步的划分,以Cache为例,Cache由数据缓存控制器(L1-DCACHE)及其RAM,指令缓存控制器(L1-ICACHE)及其RAM,AXI总线主接口(CACHE-AXIM),以及AXI总线从接口(CACHE-AXIS)组成,这些部件的失效率分别为λL1-DCACHE、λL1-ICACHE、λCACHE-AXIM、λCACHE-AXIS,那么Cache的失效率λCACHE为:
λCACHE=1-(1-λL1-DCACHE)*(1-λL1-ICACHE)*(1-λCACHE-AXIM)*(1-λCACHE-AXIS)
Z语言描述功能模块CFM的失效率如下:
Figure BDA0002874806880000081
(2)状态空间StateCFM
CFM包含的各个组件的状态空间包含正常状态Normal State,恢复状态RecoveryState,等待状态WaitingState,故障检测状态DetectedState和失效状态Failure State。CFM典型状态转移图如图3所示,其中的椭圆表示状态,连接线表示状态转移关系及其转移概率。初始状态isInitial=1和当前状态isArrive=1都包含在状态空间中,并由Z语言标记。CFM的状态空间Z语言模式定义如下:
Figure BDA0002874806880000082
(3)状态转移关系STRCFM
CFM的状态转移关系也由图3表示,状态转移包含源状态sState、目标状态tState和转移概率参数TR,其中,sState和tState必须是该CFM状态空间中含有的。具体Z语言模式定义如下:
Figure BDA0002874806880000091
CFM失效时仍然存在恢复到正常状态的可能性,该可能性称之为CFM的修复概率,可通过下式计算得到,其中μ代表CFM的修复概率,F_R代表CFM的修复次数,T_R代表CFM总修复时间,Δt表示平均每次修复需要的时间。
Figure BDA0002874806880000092
2、连续时间的马尔可夫链CTMC
FMRE-Z模型中描述的CFM可靠性与时间有关。每个时刻的状态都与上一时刻的状态相关,所以可以采用CTMC描述FMRE-Z模型,更准确的评估CFM的可靠性。
CTMC可以描述为三元组:
CTMC=(I,T,t)
其中,
(1)I表示CTMC的状态空间,I={i1,i2,...,in},in表示第n种状态;
(2)T表示CTMC的状态转移矩阵,是一个n*n的方阵,Tjk表示状态ij转移到状态ik的概率,且
Figure BDA0002874806880000093
表示第j种状态转移为其他状态或保留自身状态的概率和为1;
(3)t表示时刻。
3、CTMC与FMRE-Z元素映射关系
使用CTMC描述FMRE-Z模型,必须保证二者之间的转换过程等价,即元素之间满足对应关系,这样才能保证转换前后可靠性约束的一致性,下表2表示了二者之间的元素转换规则:
表2 FMRE-Z与CTMC元素之间的映射规则
Figure BDA0002874806880000094
Figure BDA0002874806880000101
4、CFM可靠性评估
CFM可靠性可以通过其失效率λCFM来描述,CFM失效率与时间的函数关系定义为:
定义3.CFM的失效率与时间的关系如下式所示:
Figure BDA0002874806880000102
其中,λCFM(t)表示t时刻CFM的失效率;
CFM典型状态转移矩阵为:
Figure BDA0002874806880000103
设向量PCFM(t)=(PN(t),PR(t),PW(t),PD(t),PF(t)),该向量表示在t时刻的状态概率,其中PN(t),PR(t),PW(t),PD(t),PF(t)分别表示CFM在t时刻处于Normal State,RecoveryState,WaitingState,DetectedState和FailureState的概率。因此,根据状态转移矩阵可以得到CFM的状态概率方程为:
Figure BDA0002874806880000104
因此CFM的可靠性RCFM指的是不处于失效状态FailureState的概率:
RCFM(t)=1-PF(t)
其中,PF(t)表示CFM在t时刻处于失效状态FailureState的概率。
5、CPU整体可靠性评估模型(CPURE-BN)
根据已经得到的CFM可靠性概率,建立CPU整体的概率拓扑关系,基于贝叶斯网络BN,建立CPU整体可靠性评估模型(CPURE-BN)。CPU整体失效率与五个功能模块CFM失效率拓扑关系BN模型如图2所示。CFM的失效率与CFM组件的状态关系已经由CTMC模型进行评估,所以这里只考虑CPU与CFM之间的可靠性关系,不需考虑CPU与CFM组件状态的关系。假设CFM发生错误分别表示为事件x1,x2,x3,x4,x5,CPU发生错误表示为事件y,则CPU整体的失效率PERROR可以表示为:
PERROR=P(y=1|x1,x2,x3,x4,x5)
对于CPU整体来说,只有所有的CFM均处于正常状态,CPU才是可用的。如图3所示,“1”表示故障事件发生,“0”表示没有发生错误,所以只有当五个CFM对应的值均为“0”时(未发生故障),CPU整体的状态才为“0”(正常状态)。CPU系统共有五个CFM分别为控制单元CU、运算逻辑单元ALU、存储单元MU和内部总线IB,在这里对应着x1,x2,x3,x4,x5。其中xi∈{0,1},xi=1表示第i个CFM处于错误状态。
根据CTMC模型求得的结果,CACHE、PFU、MPU、LSU以及DPU的失效率分别为:λCACHE、λPFU、λMPU、λLSU和λDPU。以λCACHE为例,可以表示为:
P(x1=1)=λCACHE=1-(1-λL1-DCACHE)*(1-λL1-ICACHE)*(1-λCACHE-AXIM)*(1-λCACHE-AXIS)
那么CPU可靠性为:
P(y=0)=1-P(x1=1)*P(x2=1)*P(x3=1)*P(x4=1)*P(x5=1)
其中各个CFM失效率依赖于CTMC中计算的值,CTMC计算的CFM失效率是一个随时间动态变化的值,所以CPU整体的可靠性也是随时间不停变化的。
6、可靠性关键CFM识别
可靠性关键CFM是指该CFM的可靠性对CPU系统整体有着最大的影响,它是否失效直接影响着系统整体是否失效。而且针对该CFM可靠性的提升,对系统征途可靠性的提升也最为明显。下面给出基于CPURE-BN模型的可靠性关键模块识别方法。
CPURE-BN对CPU可靠性进行定义,由于贝叶斯网络本身节点变量之间的条件独立性且拥有双向推理的优势,在CPU故障条件下,计算出任意一个或多个CFM节点的错误概率。利用推理算法,可以计算出事件xi的条件失效概率
Figure BDA0002874806880000111
Figure BDA0002874806880000121
选取条件失效概率最高的CFM为可靠性关键CFM。
综上,本发明采用形式化建模语言Z对CPU进行分级建模,以CPU功能模块CFM为单位,建立CPU功能模块可靠性模型FMRE-Z;使用连续时间的马尔可夫链描述CFM的状态和时间的连续性特征,分析评估CFM的可靠性;结合CFM可靠性结果,使用贝叶斯网络BN,描述CFM可靠性与CPU可靠性的拓扑关系,对CPU整体可靠性进行评估,同时反向推理出对CPU可靠性影响程度最高的CFM,即可靠性关键模块。本发明可以准确地描述CPU及CFM的动态特征与时间的关系,同时也精确刻画出它们概率拓扑关系,提升了整体模型的稳定性。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,其特征在于,所述方法包括以下步骤:
步骤1,提取CPU设计中的可靠性相关信息,使用Z语言对CPU进行分级建模,以CPU功能模块CFM为单位,自下而上地建立FMRE-Z模型;
步骤2,依据FMRE-Z模型描述的CFM状态的连续时间关系,采用连续时间的马尔可夫链CTMC描述FMRE-Z模型,为每一个CFM建立CTMCCFM模型,对CFM的可靠性进行评估;
步骤3,依据步骤2中得到的CFM可靠性概率,建立CPU整体的概率拓扑关系,再基于贝叶斯网络,建立CPU整体可靠性评估模型CPURE-BN,该模型为“总-分”模式,描述CPU整体失效率与五个功能模块CFM失效率的拓扑关系;之后基于CPURE-BN模型评估CPU整体的可靠性;
步骤4,依据步骤3中得到的CPURE-BN模型,计算不同CFM对CPU整体可靠性的影响程度,依据影响程度获取可靠性关键CFM。
2.根据权利要求1所述的面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,其特征在于,步骤1中FMRE-Z模型表示为一个三元组:
FMRE-Z=(ERCFM,StateCFM,STRCFM)
式中,ERCFM表示CFM的失效率,StateCFM表示CFM的状态空间,STRCFM表示状态转移关系。
3.根据权利要求2所述的面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,其特征在于,所述功能模块CFM包括缓冲存储器、预取单元、内存保护单元、负载存储单元以及数据处理单元,上述单元的失效率分别用λCACHE、λPFU、λMPU、λLSU和λDPU表示;
其中,缓冲存储器包括数据缓存控制器及其RAM,指令缓存控制器及其RAM,AXI总线主接口,以及AXI总线从接口,这些部件的失效率分别为λL1-DCACHE、λL1-ICACHE、λCACHE-AXIM、λCACHE-AXIS,则缓冲存储器的失效率λCACHE为:
λCACHE=1-(1-λL1-DCACHE)*(1-λL1-ICACHE)*(1-λCACHE-AXIM)*(1-λCACHE-AXIS)
同理可获得λPFU、λMPU、λLSU和λDPU
4.根据权利要求3所述的面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,其特征在于,步骤2中所述CTMC描述为三元组:
CTMC=(I,T,t)
其中,
(1)I表示CTMC的状态空间,I={i1,i2,...,in},in表示第n种状态,n为状态空间大小;
(2)T表示CTMC的状态转移矩阵,是一个n*n的方阵,Tjk表示状态ij转移到状态ik的概率,且
Figure FDA0002874806870000021
表示第j种状态转移为其他状态或保留自身状态的概率和为1;
(3)t表示时刻。
5.根据权利要求4所述的面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,其特征在于,步骤2中采用连续时间的马尔可夫链CTMC描述FMRE-Z模型,为每一个CFM建立CTMCCFM模型,具体通过FMRE-Z和CTMC元素之间的元素映射规则进行转换,映射规则如下表1所示:
表1 FMRE-Z与CTMC元素之间的映射规则
Figure FDA0002874806870000022
6.根据权利要求5所述的面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,其特征在于,步骤2中所述对CFM的可靠性进行评估,具体包括:
步骤2-1,定义CFM失效率与时间的函数关系为:
Figure FDA0002874806870000023
式中,λCFM(t)表示t时刻CFM的失效率,λCFM表示初始时刻t=0时的失效率,Δt表示时间间隔;
步骤2-2,CFM典型状态转移矩阵T为:
Figure FDA0002874806870000031
设向量PCFM(t)=(PN(t),PR(t),PW(t),PD(t),PF(t)),该向量表示在t时刻的状态概率,其中PN(t),PR(t),PW(t),PD(t),PF(t)分别表示CFM在t时刻处于正常状态Normal State、恢复状态Recovery State、等待状态Waiting State、故障检测状态Detected State和失效状态Failure State的概率;λRecoverable,λRecovery和λFailure分别代表可恢复、已恢复和失效的概率;
根据状态转移矩阵得到CFM的状态概率方程为:
Figure FDA0002874806870000032
步骤2-3,求解步骤2-2中的公式可得CFM在t时刻的状态概率分布,则t时刻CFM的可靠性RCFM为:
RCFM(t)=1-PF(t)。
7.根据权利要求6所述的面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,其特征在于,步骤3中所述基于CPURE-BN模型评估CPU可靠性,具体包括:
CPU整体的失效率PERROR表示为:
PERROR=P(y=1|x1,x2,x3,x4,x5)
式中,x1,x2,x3,x4,x5分别表示缓冲存储器、预取单元、内存保护单元、负载存储单元以及数据处理单元这五个CFM发生失效的事件,y表示CPU整体发生失效的事件;
基于CPURE-BN模型,依据CFM的失效率计算CPU整体的失效率,由此评估CPU整体的可靠性为:
P(y=0)=1-P(x1=1)*P(x2=1)*P(x3=1)*P(x4=1)*P(x5=1)
式中,P(x1=1)=λCACHE,P(x2=1)=λPFU,P(x3=1)=λMPU,P(x4=1)=λLSU,P(x5=1)=λDPU
8.根据权利要求7所述的面向辐射环境的CPU抗SEU效应的可靠性建模与评估方法,其特征在于,步骤4所述依据步骤3中得到的CPURE-BN模型,计算不同CFM对CPU整可靠性的影响程度,依据影响程度获取可靠性关键CFM,具体包括:
利用推理算法,计算事件xi的条件失效概率
Figure FDA0002874806870000041
Figure FDA0002874806870000042
选取条件失效概率最高的CFM为可靠性关键CFM。
CN202011631160.8A 2020-12-31 2020-12-31 面向辐射环境的cpu抗seu效应的可靠性建模与评估方法 Active CN112799862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011631160.8A CN112799862B (zh) 2020-12-31 2020-12-31 面向辐射环境的cpu抗seu效应的可靠性建模与评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011631160.8A CN112799862B (zh) 2020-12-31 2020-12-31 面向辐射环境的cpu抗seu效应的可靠性建模与评估方法

Publications (2)

Publication Number Publication Date
CN112799862A true CN112799862A (zh) 2021-05-14
CN112799862B CN112799862B (zh) 2022-09-06

Family

ID=75808284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011631160.8A Active CN112799862B (zh) 2020-12-31 2020-12-31 面向辐射环境的cpu抗seu效应的可靠性建模与评估方法

Country Status (1)

Country Link
CN (1) CN112799862B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874200A (zh) * 2017-02-14 2017-06-20 南京航空航天大学 基于aadl的嵌入式软件可靠性建模与评估方法
CN108376221A (zh) * 2018-02-27 2018-08-07 哈尔滨工业大学 一种基于aadl模型扩展的软件系统安全性验证与评估方法
US20190087294A1 (en) * 2018-05-11 2019-03-21 Beihang University Method for establishing fault diagnosis technique based on contingent Bayesian networks
WO2019150343A1 (en) * 2018-02-05 2019-08-08 Telefonaktiebolaget Lm Ericsson (Publ) Resource needs prediction in virtualized systems: generic proactive and self-adaptive solution

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874200A (zh) * 2017-02-14 2017-06-20 南京航空航天大学 基于aadl的嵌入式软件可靠性建模与评估方法
WO2019150343A1 (en) * 2018-02-05 2019-08-08 Telefonaktiebolaget Lm Ericsson (Publ) Resource needs prediction in virtualized systems: generic proactive and self-adaptive solution
CN108376221A (zh) * 2018-02-27 2018-08-07 哈尔滨工业大学 一种基于aadl模型扩展的软件系统安全性验证与评估方法
US20190087294A1 (en) * 2018-05-11 2019-03-21 Beihang University Method for establishing fault diagnosis technique based on contingent Bayesian networks

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
何明 等: "基于贝叶斯网络的系统可靠性评估方法研究", 《系统仿真学报》 *
刘维维 等: "一种嵌入式软件可靠性建模与评估方法", 《计算机与现代化》 *
尹晓伟 等: "基于贝叶斯网络的多状态系统可靠性建模与评估", 《机械工程学报》 *
崔家文等: "光伏发电系统可靠性分析的贝叶斯网络模型", 《分布式能源》 *
李乃鑫 等: "电液伺服作动器可靠性评估的贝叶斯网络方法", 《西北工业大学学报》 *
李蜜: "基于Z语言的嵌入式系统可靠性建模与评估技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
罗千舟 等: "贝叶斯网络在多状态系统可靠性评估中的应用", 《微计算机信息》 *

Also Published As

Publication number Publication date
CN112799862B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
Gascard et al. Quantitative analysis of dynamic fault trees by means of Monte Carlo simulations: Event-driven simulation approach
Xing et al. Exact combinatorial reliability analysis of dynamic systems with sequence-dependent failures
US10275548B1 (en) Interactive diagnostic modeling evaluator
US8868381B2 (en) Control system design simulation using switched linearization
CN111145076A (zh) 数据并行化处理方法、系统、设备及存储介质
CN109978055B (zh) 多传感器系统的信息融合方法及系统、计算机设备及介质
Kabir et al. A hybrid modular approach for dynamic fault tree analysis
CN113900844A (zh) 一种基于服务码级别的故障根因定位方法、系统及存储介质
US8938710B2 (en) Preventing interference between subsystem blocks at a design time
Zeng et al. Reliability analysis for complex systems based on generalized stochastic petri nets and EDA approach considering common cause failure
CN112799862B (zh) 面向辐射环境的cpu抗seu效应的可靠性建模与评估方法
Романкевич et al. On evaluation of reliability increase in fault-tolerant multiprocessor systems
Barlow et al. Assessing the reliability of computer software and computer networks: An opportunity for partnership with computer scientists
Qiu et al. An implicit method for probabilistic common-cause failure analysis using Bayesian Network
JP2010128674A (ja) コンピュータネットワーク、異常検出装置、異常検出方法および異常検出プログラム
Tarasyuk et al. Towards probabilistic modelling in event-b
Jyotish et al. Reliability and Performance Measurement of Safety-Critical Systems Based on Petri Nets: A Case Study of Nuclear Power Plant
CN112799890B (zh) 一种总线抗seu的可靠性建模与评估方法
CN116028450A (zh) 一种日志检测方法、装置及设备
JP2022124240A (ja) 診断パターン生成方法及び計算機
Efimov et al. Hardware-Software complex reliability providing method of a real-time system
Wang et al. Petri net‐based deviation detection between a process model with loop semantics and event logs
Briesemeister et al. Quantitative fault propagation analysis for networked cyber-physical systems
CN112817784B (zh) 一种面向软错误的寄存器可靠性建模与评估方法
US20240152805A1 (en) Systems, methods, and non-transitory computer-readable storage devices for training deep learning and neural network models using overfitting detection and prevention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant