CN112799890A - 一种总线抗seu的可靠性建模与评估方法 - Google Patents

一种总线抗seu的可靠性建模与评估方法 Download PDF

Info

Publication number
CN112799890A
CN112799890A CN202011634244.7A CN202011634244A CN112799890A CN 112799890 A CN112799890 A CN 112799890A CN 202011634244 A CN202011634244 A CN 202011634244A CN 112799890 A CN112799890 A CN 112799890A
Authority
CN
China
Prior art keywords
bus
reliability
state
bfm
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011634244.7A
Other languages
English (en)
Other versions
CN112799890B (zh
Inventor
庄毅
胡志诚
晏祖佳
顾晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202011634244.7A priority Critical patent/CN112799890B/zh
Publication of CN112799890A publication Critical patent/CN112799890A/zh
Application granted granted Critical
Publication of CN112799890B publication Critical patent/CN112799890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test buses, lines or interfaces, e.g. stuck-at or open line faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种总线抗SEU的可靠性建模与评估方法,包括以下步骤:面向总线设计,提取嵌入式硬件系统中关联的可靠性信息,基于Z语言,以总线功能模块为单位建立可靠性模型ZRM‑BUS;以连续时间马尔可夫链为基础描述ZRM‑BUS模型,计算总线各功能模块的瞬时可用度,评估总线各功能模块可靠性;根据总线的部件和功能模块整体可靠性之间的关系,在所有总线功能模块的瞬时可用度的基础上,计算总线整体的可靠性概率分布,对总线整体进行可靠性评估;以总线整体的可靠性概率分布为基础,进行总线可靠性关键功能模块的识别。本发明具有可将总线分层次表示,对模型检测方法与可靠性可进行严格地分析与评估等优点。

Description

一种总线抗SEU的可靠性建模与评估方法
技术领域
本发明属于可信计算、形式化建模与验证领域,特别是一种总线抗SEU的可靠性建模与评估方法。
背景技术
嵌入式硬件是应用于特殊场景和任务的专用计算系统,在不同的领域中,对其可靠新要求也会有所差别。比如,在航空航天领域,需要极高安全性和可靠性;而在民用消费领域,需要极高可靠性。
研究硬件可靠性,现有方法已经取得了不少成果。中国北京特种车辆研究所LiuY等人基于可靠性框图提出了一种对系统任务可靠性进行建模的方法,对可靠性模型的节点、基本单元和基本模块进行了定义,并提出了可靠性预测算法,这对于复杂系统的可靠性设计和预测十分重要。华中科技大学陈志诚等人提出了基于ExtendSim的可靠性建模框架,并且提出了基于“致命修复”等策略的模拟模型。西北工业大学李淑敏等人设计了基于模块分解的多态故障树分析方法。
虽然基于可靠性框图等传统方法已经取得了不少成果,但是随着嵌入式硬件的日益复杂,传统方法愈来愈难以描述其动态特征,也难以反映嵌入式硬件可靠性与时间的相关性。因为Markov模型能够通过状态转移来反映其与时间的相关性,且硬件关于时间的状态转移符合Markov链的性质,所以许多学者利用Markov模型来开展硬件可靠性的相关研究。中国国家电网集团赵丽莉等人将故障树与Markov模型联合起来,建立了故障树模型和Markov模型,并在这两个模型的基础上计算了系统处于不同运行状态时的概率,由此来评估系统的可靠性。
Z语言是以Zermelo-Fraenkel集合论和一阶谓词逻辑为基础的形式规格说明规范,具有精确描述系统状态与操作的能力,并且支持谓词演算和模式演绎的数学方法对模型进行数据约束的证明。Z语言是由牛津大学程序设计研究组(Programming ResearchGroup,PRG)设计开发的。与其他形式化方法相比,Z语言具有很强的描述能力、支持可扩展、建模形式呈现模块化等优点,这些优点使其成为软件形式化建模常用方法之一。
发明内容
本发明的目的在于提供一种总线抗SEU的可靠性建模与评估方法,能够以谓词约束的形式对嵌入式硬件中的总线的可靠性进行描述,便于形式化验证,且具有很好的可扩展性。
实现本发明目的技术解决方案为:一种总线抗SEU的可靠性建模与评估方法,所述方法包括以下步骤:
步骤1,提取太空辐射恶劣环境下硬件总线设计中的可靠性相关信息,在Z语言的基础上采用分级建模的方式,以总线功能模块为单位,自下而上地为总线建立可靠性模型ZRM-BUS,包括总线功能模块可靠性模型和总线系统整体可靠性模型;其中总线系统整体包括若干个总线功能模块;
步骤2,根据连续时间马尔可夫链CTMCBUS计算各个总线功能模块的瞬时可用度,对总线功能模块可靠性进行评估;
步骤3,将总线系统状态随时间的演化过程刻画为一个马尔可夫链,基于所述瞬时可用度,计算总线系统整体的可靠性概率分布,对总线系统整体进行可靠性评估;其中,所有总线功能模块的正常或者失效的状态构成了总线系统整体的状态空间SBUS
步骤4,在总线系统整体可靠性评估的基础上识别出可靠性关键总线功能模块。
本发明与现有技术相比,其显著优点为:1)本发明采用分级建模的形式,以总线功能模块为单位,为总线建立可靠性模型,易于理解,简洁清晰且模型不会臃肿;2) 继承了Z语言强大的数据约束能力和良好的可扩展性,可以对概率进行描述,并能方便的添加可靠性元素。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明总线抗SEU的可靠性建模与评估方法的流程图。
图2为以总线为中心的嵌入式硬件抽象图。
图3为两个总线功能模块BFM的嵌入式硬件总线的BAS状态转移关系图。
图4为典型总线的功能模块BFM状态转移图,其中图(a)为BFM典型状态转移图,(b)为瞬时状态简化后的状态转移图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
由于总线起到连接嵌入式各功能部件的作用,研究总线的抗SEU(Single EventUpset)能力,则需以总线为中心,细化总线系统的功能部件。如图2,总线功能模块按功能和规范可分为的可靠性模型包括数据总线集合DB(Data Bus)、地址总线集合AB (AddressBus)、控制总线集合CB(Control Bus)和扩展总线集合EB(Expansion Bus)。其中,数据总线负责在CPU与RAM之间来回传送需要处理或是需要储存的数据;地址总线用来指定在RAM(RandomAccess Memory)之中储存的数据的地址;控制总线将微处理器控制单元(ControlUnit)的信号,传送到周边设备;拓展总线负责外部设备和计算机主机进行数据通信的总线,例如ISA总线,PCI总线等。
因为Markov模型能够通过状态转移来反映其与时间的相关性,且硬件关于时间的状态转移符合Markov链的性质,为此引入Markov理论来研究动态特征。
Z语言是以Zermelo-Fraenkel集合论和一阶谓词逻辑为基础的形式规格说明规范,具有精确描述系统状态与操作的能力,并且支持谓词演算和模式演绎的数学方法对模型进行数据约束的证明。Z语言是由牛津大学程序设计研究组(Programming ResearchGroup,PRG)设计开发的。与其他形式化方法相比,Z语言具有很强的描述能力、支持可扩展、建模形式呈现模块化等优点,这些优点使其成为软件形式化建模常用方法之一。
综上所述,为了更加准确地描述总线可靠性的动态特征、与时间的相关性,并对其进行严格的可靠性评估,本发明采用可以严格描述数据约束的Z语言来对总线的可靠性进行分级建模,以总线功能模块为单位为其建立可靠性模型ZRM-BUS(Z-based embeddedhardware Reliability Model-BUS_I/O);利用CTMC(Continuous Time Markov Chain)的状态与时间的连续性特征,将ZRM-BUS刻画为CTMCBUS,并基于CTMCBUS来严格评估总线可靠性。
结合图1,本发明提供了一种基于Z语言的总线抗SEU的可靠性建模与评估方法,所述方法包括以下步骤:
步骤1,提取太空辐射恶劣环境下硬件总线设计中的可靠性相关信息,在Z语言的基础上采用分级建模的方式,以总线功能模块为单位,自下而上地为总线建立可靠性模型ZRM-BUS,包括总线功能模块可靠性模型和总线系统整体可靠性模型;其中总线系统整体包括若干个总线功能模块;
步骤2,根据连续时间马尔可夫链CTMCBUS计算各个总线功能模块的瞬时可用度,对总线功能模块可靠性进行评估;
步骤3,将总线系统状态随时间的演化过程刻画为一个马尔可夫链,基于所述瞬时可用度,计算总线系统整体的可靠性概率分布,对总线系统整体进行可靠性评估;其中,所有总线功能模块的正常或者失效的状态构成了总线系统整体的状态空间SBUS
步骤4,在总线系统整体可靠性评估的基础上识别出可靠性关键总线功能模块。
进一步地,在其中一个实施例中,步骤1中所述总线功能模块可靠性模型包括数据总线集合DB、地址总线集合AB、控制总线集合CB和扩展总线集合EB的错误率,分别用λDB、λAB、λCB和λEB表示,每种总线集合在不同的嵌入式系统中对总线整体可靠性的影响不同,引入重要性权重ω。
进一步地,在其中一个实施例中,步骤1中所述的总线功能模块可靠性模型表示为一个三元组:
ZHRMBFM=(FRatebus,Statebus,STRbus)
式中,ZHRMBFM为基于Z语言的嵌入式硬件可靠模型;FRatebus表示总线功能模块BFM的错误率;Statebus表示BFM的状态空间;STRbus表示状态转移关系。
进一步地,在其中一个实施例中,所述总线功能模块BFM的错误率λBFM为:
Figure BDA0002877901790000041
式中,ωi为λi对应的重要性权重。
进一步地,在其中一个实施例中,步骤2所述根据CTMCBUS计算各个功能模块的瞬时可用度,进行功能模块可靠性的评估,具体过程包括:
步骤2-1,用连续时间马尔可夫链CTMCBUS描述ZRM-BUS模型,为每一个总线功能模块建立CTMCBUS模型;
步骤2-2,基于CTMCBUS模型计算各个总线功能模块的瞬时可用度λBFM(t):
Figure BDA0002877901790000042
步骤2-3,根据瞬时可用度λBFM(t)构建总线功能模块的典型状态转移矩阵A'BUS为:
Figure BDA0002877901790000043
其中,λBFM表示发生故障的概率即瞬时可用度;λRecoverable表示总线上出现的错误Error能够修复的概率;1-λRecoverable表示Error不能被修复的概率;λDetected表示Error 被检测到的概率;1-λDetected表示Error未被检测到的概率;λFailure表示不可修复的Error 导致系统失效;
由此获得功能模块的状态概率方程:
Figure BDA0002877901790000051
式中,PN(t),PR(t),PD(t)和PF(t)分别表示BFM在t时刻处于正常状态NormalState、恢复状态Recovery State、故障检测状态Detected State和失效状态FailureState 的概率;
步骤2-4,计算总线功能模块处于失效状态的概率即失效率PF(t):
PF(t)=λBFM·(1-λDetected)+λBFM·λDetected·(1-λRecoverable)·λFailure
BFM·λDetected·λRecoverable·(1-λRecoverable)·λFailure
步骤2-5,根据失效率PF(t)计算t时刻BFM的可靠度RBFM(t):
RBFM(t)=1-PF(t)。
进一步地,在其中一个实施例中,步骤2-1中的CTMCBUS形式化表示如下:
CTMCBUS=(SBUS,Sin,A,TBUS,t)
其中,
(1)SBUS表示CTMCBUS的状态空间;
(2)Sin∈SBUS表示CTMCBUS的初始状态;
(3)ABUS=[aij]表示状态转移概率矩阵,aij表示从状态si∈SBUS转移到状态 sj∈SBUS的概率;
(4)
Figure BDA0002877901790000052
表示状态转移关系集合,(si,sj)∈TBUS表示存在状态si到状态sj的一个转移;
(5)t表示时刻。
进一步地,在其中一个实施例中,步骤2-1中所述用连续时间马尔可夫链CTMCBUS描述ZRM-BUS模型,具体通过ZRM-BUS和CTMCBUS之间的元素映射规则进行转换,映射规则如下表1所示:
表1 ZRM-BUS建模与CTMCBUS元素之间的映射规则
Figure BDA0002877901790000061
进一步地,在其中一个实施例中,步骤3具体包括:
对于包括芯片总线PB、系统总线MB以及通信总线CB三个BFM的总线系统:
其状态转移概率矩阵ABUS为:
Figure 100002_1
式中,λPB、λMB和λCB分别为芯片总线PB、系统总线MB以及通信总线CB的错误率;μPB、μMB和μCB分别为芯片总线PB、系统总线MB以及通信总线CB的修复概率,计算公式为:
Figure BDA0002877901790000071
式中,F_R代表BFM的修复次数,T_R代表BFM总修复时间,t为修复的时间单位;
由马尔可夫链的平稳分布性质可得下式方程,利用该方程对总线系统整体进行可靠性评估:
Figure BDA0002877901790000072
式中,Pstable为总线系统整体即总线抗SEU系统BAS对应的马尔可夫链处于平稳状态时的概率分布,其中包含了BAS处于每个状态的概率,PBAS(t)为BAS对应的马尔可夫链的初始分布,n表示转移次数,t表示每个BFM的可靠性对应的时刻。
进一步地,在其中一个实施例中,步骤4所述在总线系统整体可靠性评估的基础上识别出可靠性关键总线功能模块,具体过程包括:
步骤4-1,为总线抗SEU系统BAS整体的所有状态分布分别创建一个唯一编码,该编码不仅能用于区别BAS的所有状态,还能与BAS的可靠性相关联;
步骤4-2,利用马尔可夫链的平稳分布性质得到的方程计算BAS在t时刻处于每个状态的概率分布,由此计算BAS所有状态的概率分布,从中获得具有最高概率的状态编码;
步骤4-3,利用最高概率的状态编码进行可靠性关键总线功能模块识别,所述可靠性关键总线功能模块为失效BFM。
进一步地,在其中一个实施例中,步骤4-1中所述唯一编码采用BAS中所有BFM 的状态序列sn-1sn-2...s1s0,序列中的每一个标志位sj都表示一个BFM的状态处于正常状态sj=0或失效状态sj=1,0≤j<n。
下面对本发明进行详细的分析。
本发明所提出的基于Z语言的恶劣条件下总线抗SEU的可靠性建模与评估方法建立了ZRM-BUS模型,主要分为总线功能模块可靠性模型和总线整体可靠性模型。下面采用Z语言模板给出ZRM-BUS模型的定义,并给出嵌入式软件中各类约束的形式化描述方法,以便进行严格的分析与验证。采用Z语言的谓词对建模元素的属性进行约束,能够使建立的模型具备一致性,有利于提高软件建模的正确性与效率。
1、总线功能模块BFM可靠性模型
由于总线起到连接嵌入式各功能部件的作用,研究总线的抗SEU能力,则需以总线为中心,细化总线系统的功能部件。如图2,总线功能模块按功能和规范可分为的可靠性模型包括数据总线集合DB(DataBus)、地址总线集合AB(Address Bus)、控制总线集合CB(Control Bus)和扩展总线集合EB(Expansion Bus)。其中,数据总线负责在CPU与RAM之间来回传送需要处理或是需要储存的数据;地址总线用来指定在RAM (Random AccessMemory)之中储存的数据的地址;控制总线将微处理器控制单元 (Control Unit)的信号,传送到周边设备;扩展总线负责外部设备和计算机主机进行数据通信的总线,例如ISA总线,PCI总线等。
定义1给出了ZRM-BUS模型中关于BFM子模型的定义,详细描述了构成BFM可靠性模型的建模要素,具体定义如下:
定义1.ZRM-BUS的BFM子模型ZRM-BUSBFM如下式所示的三元组:
ZHRMBFM=(FRatebus,Statebus,STRbus)
其中,FRatebus(FailureRatebus)表示BFM的错误率,Statebus表示BFM的状态空间,STRbus(State TransferRelationshipbus)表示状态转移关系。
下面分别介绍ZRM-BUSBFM三元素的具体含义以及Z模式定义方法。
(1)错误率FRate
根据定义1,BFM是由DB、AB、CB和EB组成的集合,因此BFM的可靠性也与四者相关,并且四者中任何一个部分发生故障(Error)可视为整个BFM发生一次故障 (Error),因此可以对于BFM的错误率给出如下定义2。
定义2.BFM的DB集合、AB集合、CB集合和EB集合的错误率分别为λDB、λAB、λCB和λEB,每种总线集合在不同的嵌入式系统中对总线整体可靠性的影响不同,引入重要性权重ω,由对应的系统确定值的大小。那么BFM的错误率λBFM定义为下式:
Figure BDA0002877901790000081
采用Z模式描述的BFM错误率FRate如下:
Figure BDA0002877901790000091
其中,DB_FRate、AB_FRate、CB_FRate、EB_FRate分别表示λDB、λAB、λCB、λEB, BFM_FRate则表示BFM的错误率,且BAS存在多个BFM,在名称中加入<BFMName> 用以区别。
(2)状态空间State
BFM的状态空间包含正常状态(NormalState,NS)、故障状态(ErrorState,ES)、失效状态(Failure State,FS)、故障检测状态(DetectedState,DS)和恢复状态(RecoveryState,RS),其中Normal State是初始状态;ErrorState是一种瞬时状态,是Normal State发生故障时的过渡状态;DetectedState也是一种瞬时状态,是BFM检测到发生故障,对并故障进行进一步处理的状态。并且,对于具有容错机制的BFM,还存在降级工作状态(DegradeState,DGS)。由此可得图4(a)所示的BFM典型状态转移图,其中的椭圆表示状态,带参数的连接线表示状态转移关系及其转移概率,图中各参数定义如表 2所示,将其中的瞬时状态简化后得到图4(b)所示状态转移图。
表2典型BFM状态转移参数列表
Figure BDA0002877901790000092
明确BFM的状态空间之后,采用Z模式对其进行定义如下:
Figure BDA0002877901790000101
其中,isInitial和isArrive分别表示是否初始状态和是否当前状态。
(3)状态转移关系STR
图4中不仅描述了BFM的状态空间,还描述了BFM所有状态之间的转移关系。一次状态转移必须要声明三个要素,分别是源状态sState、目标状态tState和转移概率参数TRate,其中,sState和tState必须是该BFM状态空间中含有的,TRate来自表2中所列出的转移参数。具体Z模式定义方法如下:
Figure BDA0002877901790000102
在采用Z模式对BFM各可靠性要素进行建模之后,需要将同属一个BFM的可靠性约束进行整合,便于当BAS过于复杂,含有过多的BFM时,对所有的可靠性约束进行分级管理。总线的局部失效可以通过嵌入式系统以软件的方式得到修复,如局部总线失效等。在总线系统中,硬件的局部失效即BFM失效时仍然存在恢复到正常状态的可能性,该可能性称之为BFM的修复概率,可通过下式计算得到,其中μ代表BFM的修复概率,F_R代表BFM的修复次数,T_R代表BFM总修复时间,t为修复的时间单位。
Figure BDA0002877901790000103
因此,需要将同属一个BFM的可靠性约束使用一个Z模式进行管理,使用BFMRRate表示BFM的修复率,具体定义方法如下:
Figure BDA0002877901790000111
上述的Z模式<BFMName>BFM使用Z语言中模式包含的定义方式。
2、嵌入式硬件总线可靠性模型
BFM是总线抗SEU系统BAS的基本单位,因此BFM是否处于失效状态直接反映了BAS的状态。图3描述了一个具有三个BFM的BAS的状态转移关系。如图3所示, BAS具有三个BFM,分别是PB(芯片总线)、MB(系统总线)和CB(通信总线),图中的圆圈表示BAS的一个状态,如状态“PB·MB·CB”表示该状态下PB、MB以及 CB均未处于失效状态;“PB·MB_”表示PB和MB未处于失效状态,CB处于失效状态。λPB、λMB、λCB分别表示PB和MB以及CB的错误率,μPB、μMB、μCB分别表示三者的修复概率。
如图3所示,具有三个BFM的BAS拥有8个状态,BAS包含的BFM数目直接影响着BAS的状态空间大小,具体关系为,假设BAS含有n个BFM,那么BAS的状态空间中含有n个状态。因此,必须明确声明BAS所包含的BFM及其数目。BAS的Z 模式声明方式如下:
Figure BDA0002877901790000112
其中,BFM_num表示BAS所含有的BFM数目,以模式包含的声明方式包含所有属于该BAS的BFM。
下面对基于ZRM-BUS模型的可靠性评估方法进行具体描述。
ZRM-BUS模型的状态空间的变化是与时间相关的,但是,ZRM-BUS模型下一时刻的状态仍然只与当前状态相关,所以,ZRM-BUS模型符合CTMCBUS的性质。下面给出 CTMCBUS的定义:
定义3.CTMCBUS是一个如下式所示的五元组:
CTMCBUS=(SBUS,Sin,A,TBUS,t)
其中,
(1)SBUS表示CTMCBUS的状态空间;
(2)Sin∈SBUS表示CTMCBUS的初始状态;
(3)ABUS=[aij]表示状态转移概率矩阵,aij表示从状态si∈SBUS转移到状态sj∈SBUS的概率;
(4)
Figure BDA0002877901790000121
是状态转移关系集合,(si,sj)∈Tbus表示存在状态si到状态sj的一个转移;
(5)t表示时刻。
要利用CTMCBUS对ZRM-BUS进行可靠性评估,需要将ZRM-BUS转换为CTMCBUS,为了使得转换过程是等价的,可靠性约束在转换前、后保持一致性,必须对两者所包含的元素进行分析、比较,将两者中相同的元素进行映射转换。下面给出两者之间元素的转换规则,如下表3所示:
表3 ZRM-BUS建模与CTMCBUS元素之间的映射规则
Figure BDA0002877901790000122
通过上表可以看出,ZRM-BUS中的所有可靠性约束都被映射到了CTMCBUS中,可靠性约束在转换过程无遗漏、修改,说明转换过程是等价的。
1、单个BFM可靠性评估
在所有硬件模块错误率模型中,指数模型有着很好的优势,对硬件模块错误率的真实曲线有着较高的拟合度。因此,可对BFM的错误率与时间的关系进行如下定义:
定义4.BFM的错误率与时间的关系如下式所示,其中,λBFM表示t时刻BFM的错误率,表示初始时刻t=0时的错误率,也即ZRM-BUSBFM中FRate声明的BFM_FRate。
Figure BDA0002877901790000123
设PBIM(t)=(PN(t),PR(t),PD(t),PF(t))表示BFM在t时刻的状态概率向量,其中PN(t), PR(t),PD(t)和PF(t)分别表示BFM在t时刻处于NormalState,Recovery State,Degrade State和FailureState的概率。根据CTMC的状态转移方程可得到如下关于BFM的状态概率方程:
PBFM(t')=PBFM(t)*ABUS
其中,PBFM(t')=(PN(t'),PR(t'),PD(t'),PF(t'))表示t'时刻BFM的状态概率向量,其中t' 表示t时刻的下一时刻,ABUS表示BFM的状态转移概率矩阵,可从图4(b)中得到,如下式为ABUS的转置矩阵。
Figure BDA0002877901790000131
其中,λBFM表示发生故障的概率;λRecoverable表示故障Error能够修复的概率; 1-λRecoverable表示Error不能被修复的概率;λDetected表示Error被检测到的概率;1-λDetected表示Error未被检测到的概率;λFailure表示不可修复的Error导致系统失效。
可得BFM的状态概率方程,如下式所示:
Figure BDA0002877901790000132
其中PN(t),PR(t),PD(t)和PF(t)分别表示BFM在t时刻处于正常状态NormalState、恢复状态Recovery State、故障检测状态DetectedState和失效状态Failure State的概率。 PF(t)为系统处于失效状态的概率,即失效率。所谓失效状态,即系统无法继续执行正常流程,并且无法通过软件方法进行恢复的状态。由图4可知:
PF(t)=λBFM·(1-λDetected)+λBFM·λDetected·(1-λRecoverable)·λFailure
BFM·λDetected·λRecoverable·(1-λRecoverable)·λFailure
求解上式可得BFM在t时刻的状态概率分布,则t时刻BFM的可靠度为:
RBFM(t)=1-PF(t)
2、总线的整体可靠性评估
将所有总线的功能模块的失效概率和ZRM-BUSBFM中<BFMName>BFM定义的BFMRRate填充到图3中。因为此时已经计算得到所有BFM可靠性与时间的函数关系,即图3中每一个状态转移在任意时刻的概率都是已经确定的,且图3中的状态转移关系满足马尔可夫链性质。
对于总线的来说,只有所有的BFM均处于正常状态时,整个总线的系统才是可用的,因此总线的正常状态要求没有BFM处于失效状态,即对应于图3中的状态“PB·MB·CB”。因此,评估总线的可靠性的问题就转化为利用马尔可夫链计算总线的各硬件模块处于正常状态的概率,即处于状态“PB·MB·CB”的概率。
对于图3所示的三个BFM系统来说,转移概率矩阵可表示为下式,其中λPB和λMB以及λCB已经计算得到,μMB和μPB以及μCB在ZRM-BUSBFM中已经定义。
Figure 2
因为马尔可夫链的状态概率分布与其初始分布无关,所以可设初始分布为PBAS(t),结合马尔可夫链的平稳分布性质,得下式所示的方程:
Figure BDA0002877901790000142
其中,Pstable表示BAS对应的马尔可夫链处于平稳状态时的概率分布,Pstable包含了BAS处于每个状态的概率,n表示转移次数。尤其注意的是上式中的t并不简单的表示时间,而是表示每个BFM的可靠性对应的时刻,转移矩阵的转移概率是基于BFM的可靠性的,而BFM的可靠性又与时间相关。
3、可靠性关键模块识别
可靠性关键模块是指该模块的可靠性对嵌入式硬件总线有着最大的影响,它是否失效直接影响着总线是否失效。而且针对该模块可靠性的提升,对总线硬件可靠性的提升也最为明显。下面给出基于ZRM-BUS模型的可靠性关键模块识别方法。
第一步,需要为BAS的所有状态分布创建一个唯一编码,该编码不仅仅能用于区别BAS的所有状态,还必须能够与BAS的可靠性相关联。在图3中,对于BAS的每一个状态,都有一个唯一的编码与之对应,而这个唯一编码则是由BAS中所有BFM的状态构成,如图3中状态“PB·MB·CB”的编码就是“PB·MB·CB”,表示PB和MB 以及CB均处于正常状态。因此,采用所有BFM的状态序列作为BAS的状态编码。
第二步,计算BAS所有状态的概率分布,获得具有最高概率的状态编码。通过马尔可夫链的平稳分布性质得到的方程能够计算出BAS在t时刻处于每个状态的概率分布,从而得到最高概率的状态编码。当然这里的最高概率应当是除去所有BFM均失效的状态以外,因为,所有的BFM均失效,则所有的BFM均是关键模块,这样关键模块的识别是无意义的。
第三步,关键模块识别。最高概率的状态编码,不仅仅标志了BAS最有可能处于的状态,更标志了BAS中每个BFM的失效与否,其中的失效BFM即为BAS的可靠性关键模块。
本发明具有可将总线分层次表示,对模型检测方法与对可靠性可进行严格地分析与评估等优点。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种总线抗SEU的可靠性建模与评估方法,其特征在于,所述方法包括以下步骤:
步骤1,提取太空辐射恶劣环境下硬件总线设计中的可靠性相关信息,在Z语言的基础上采用分级建模的方式,以总线功能模块为单位,自下而上地为总线建立可靠性模型ZRM-BUS,包括总线功能模块可靠性模型和总线系统整体可靠性模型;其中总线系统整体包括若干个总线功能模块;
步骤2,根据连续时间马尔可夫链CTMCBUS计算各个总线功能模块的瞬时可用度,对总线功能模块可靠性进行评估;
步骤3,将总线系统状态随时间的演化过程刻画为一个马尔可夫链,基于所述瞬时可用度,计算总线系统整体的可靠性概率分布,对总线系统整体进行可靠性评估;其中,所有总线功能模块的正常或者失效的状态构成了总线系统整体的状态空间SBUS
步骤4,在总线系统整体可靠性评估的基础上识别出可靠性关键总线功能模块。
2.根据权利要求1所述的总线抗SEU的可靠性建模与评估方法,其特征在于,步骤1中所述总线功能模块可靠性模型包括数据总线集合DB、地址总线集合AB、控制总线集合CB和扩展总线集合EB的错误率,分别用λDB、λAB、λCB和λEB表示,每种总线集合在不同的嵌入式系统中对总线整体可靠性的影响不同,引入重要性权重ω。
3.根据权利要求2所述的总线抗SEU的可靠性建模与评估方法,其特征在于,步骤1中所述的总线功能模块可靠性模型表示为一个三元组:
ZHRMBFM=(FRatebus,Statebus,STRbus)
式中,ZHRMBFM为基于Z语言的嵌入式硬件可靠模型;FRatebus表示总线功能模块BFM的错误率;Statebus表示BFM的状态空间;STRbus表示状态转移关系。
4.根据权利要求3所述的总线抗SEU的可靠性建模与评估方法,其特征在于,所述总线功能模块BFM的错误率λBFM为:
Figure FDA0002877901780000011
式中,ωi为λi对应的重要性权重。
5.根据权利要求4所述的总线抗SEU的可靠性建模与评估方法,其特征在于,步骤2所述根据CTMCBUS计算各个功能模块的瞬时可用度,进行功能模块可靠性的评估,具体过程包括:
步骤2-1,用连续时间马尔可夫链CTMCBUS描述ZRM-BUS模型,为每一个总线功能模块建立CTMCBUS模型;
步骤2-2,基于CTMCBUS模型计算各个总线功能模块的瞬时可用度λBFM(t):
Figure FDA0002877901780000021
步骤2-3,根据瞬时可用度λBFM(t)构建总线功能模块的典型状态转移矩阵A'BUS为:
Figure FDA0002877901780000022
其中,λBFM表示发生故障的概率即瞬时可用度;λRecoverable表示总线上出现的故障Error能够修复的概率;1-λRecoverable表示Error不能被修复的概率;λDetected表示Error被检测到的概率;1-λDetected表示Error未被检测到的概率;λFailure表示不可修复的Error导致系统失效;
由此获得功能模块的状态概率方程:
Figure FDA0002877901780000023
式中,PN(t),PR(t),PD(t)和PF(t)分别表示BFM在t时刻处于正常状态Normal State、恢复状态Recovery State、故障检测状态DetectedState和失效状态Failure State的概率;
步骤2-4,计算总线功能模块处于失效状态的概率即失效率PF(t):
PF(t)=λBFM·(1-λDetected)+λBFM·λDetected·(1-λRecoverable)·λFailureBFM·λDetected·λRecoverable·(1-λRecoverable)·λFailure
步骤2-5,根据失效率PF(t)计算t时刻BFM的可靠度RBFM(t):
RBFM(t)=1-PF(t)。
6.根据权利要求5所述的总线抗SEU的可靠性建模与评估方法,其特征在于,步骤2-1中的CTMCBUS形式化表示如下:
CTMCBUS=(SBUS,Sin,A,TBUS,t)
其中,
(1)SBUS表示CTMCBUS的状态空间;
(2)Sin∈SBUS表示CTMCBUS的初始状态;
(3)ABUS=[aij]表示状态转移概率矩阵,aij表示从状态si∈SBUS转移到状态sj∈SBUS的概率;
(4)
Figure FDA0002877901780000031
表示状态转移关系集合,(si,sj)∈TBUS表示存在状态si到状态sj的一个转移;
(5)t表示时刻。
7.根据权利要求6所述的总线抗SEU的可靠性建模与评估方法,其特征在于,步骤2-1中所述用连续时间马尔可夫链CTMCBUS描述ZRM-BUS模型,具体通过ZRM-BUS和CTMCBUS之间的元素映射规则进行转换,映射规则如下表1所示:
表1 ZRM-BUS建模与CTMCBUS元素之间的映射规则
Figure FDA0002877901780000032
8.根据权利要求7所述的总线抗SEU的可靠性建模与评估方法,其特征在于,步骤3具体包括:
对于包括芯片总线PB、系统总线MB以及通信总线CB三个BFM的总线系统:
其状态转移概率矩阵ABUS为:
Figure 1
式中,λPB、λMB和λCB分别为芯片总线PB、系统总线MB以及通信总线CB的错误率;μPB、μMB和μCB分别为芯片总线PB、系统总线MB以及通信总线CB的修复概率,计算公式为:
Figure RE-FDA0002969125300000042
式中,F_R代表BFM的修复次数,T_R代表BFM总修复时间,t为修复的时间单位;
由马尔可夫链的平稳分布性质可得下式方程,利用该方程对总线系统整体进行可靠性评估:
Figure RE-FDA0002969125300000043
式中,Pstable为总线系统整体即总线抗SEU系统BAS对应的马尔可夫链处于平稳状态时的概率分布,其中包含了BAS处于每个状态的概率,PBAS(t)为BAS对应的马尔可夫链的初始分布,n表示转移次数,t表示每个BFM的可靠性对应的时刻。
9.根据权利要求8所述的总线抗SEU的可靠性建模与评估方法,其特征在于,步骤4所述在总线系统整体可靠性评估的基础上识别出可靠性关键总线功能模块,具体过程包括:
步骤4-1,为总线抗SEU系统BAS整体的所有状态分布分别创建一个唯一编码,该编码不仅能用于区别BAS的所有状态,还能与BAS的可靠性相关联;
步骤4-2,利用马尔可夫链的平稳分布性质得到的方程计算BAS在t时刻处于每个状态的概率分布,由此计算BAS所有状态的概率分布,从中获得具有最高概率的状态编码;
步骤4-3,利用最高概率的状态编码进行可靠性关键总线功能模块识别,所述可靠性关键总线功能模块为失效BFM。
10.根据权利要求9所述的总线抗SEU的可靠性建模与评估方法,其特征在于,步骤4-1中所述唯一编码采用BAS中所有BFM的状态序列sn-1sn-2...s1s0,序列中的每一个标志位sj都表示一个BFM的状态处于正常状态sj=0或失效状态sj=1,0≤j<n。
CN202011634244.7A 2020-12-31 2020-12-31 一种总线抗seu的可靠性建模与评估方法 Active CN112799890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011634244.7A CN112799890B (zh) 2020-12-31 2020-12-31 一种总线抗seu的可靠性建模与评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011634244.7A CN112799890B (zh) 2020-12-31 2020-12-31 一种总线抗seu的可靠性建模与评估方法

Publications (2)

Publication Number Publication Date
CN112799890A true CN112799890A (zh) 2021-05-14
CN112799890B CN112799890B (zh) 2022-10-14

Family

ID=75808514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011634244.7A Active CN112799890B (zh) 2020-12-31 2020-12-31 一种总线抗seu的可靠性建模与评估方法

Country Status (1)

Country Link
CN (1) CN112799890B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101013640B1 (ko) * 2009-08-31 2011-02-10 성균관대학교산학협력단 시스템 수행성 분석 장치 및 방법과 시스템 수행성 분석 방법을 실행하기 위한 프로그램이 기록된 기록 매체
CN106202970A (zh) * 2016-07-29 2016-12-07 南京工程学院 一种mmc的故障率评估方法
WO2017041392A1 (zh) * 2015-09-11 2017-03-16 中国矿业大学 二级马尔科夫模型开关磁阻电机系统可靠性定量评估方法
WO2017041391A1 (zh) * 2015-09-11 2017-03-16 中国矿业大学 一级马尔科夫模型开关磁阻电机系统可靠性定量评估方法
CN106874200A (zh) * 2017-02-14 2017-06-20 南京航空航天大学 基于aadl的嵌入式软件可靠性建模与评估方法
CN107844407A (zh) * 2017-11-06 2018-03-27 南京航空航天大学 一种基于prism的抗seu的可靠性验证方法
CN108022058A (zh) * 2018-01-19 2018-05-11 华中科技大学 一种风力机状态可靠性评估方法
CN110275825A (zh) * 2019-05-15 2019-09-24 南京航空航天大学 一种基于构件影响力的软件可靠性评估方法
WO2020237729A1 (zh) * 2019-05-31 2020-12-03 东北大学 一种基于模式转移的虚拟机混合备用动态可靠性评估方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101013640B1 (ko) * 2009-08-31 2011-02-10 성균관대학교산학협력단 시스템 수행성 분석 장치 및 방법과 시스템 수행성 분석 방법을 실행하기 위한 프로그램이 기록된 기록 매체
WO2017041392A1 (zh) * 2015-09-11 2017-03-16 中国矿业大学 二级马尔科夫模型开关磁阻电机系统可靠性定量评估方法
WO2017041391A1 (zh) * 2015-09-11 2017-03-16 中国矿业大学 一级马尔科夫模型开关磁阻电机系统可靠性定量评估方法
CN106202970A (zh) * 2016-07-29 2016-12-07 南京工程学院 一种mmc的故障率评估方法
CN106874200A (zh) * 2017-02-14 2017-06-20 南京航空航天大学 基于aadl的嵌入式软件可靠性建模与评估方法
CN107844407A (zh) * 2017-11-06 2018-03-27 南京航空航天大学 一种基于prism的抗seu的可靠性验证方法
CN108022058A (zh) * 2018-01-19 2018-05-11 华中科技大学 一种风力机状态可靠性评估方法
CN110275825A (zh) * 2019-05-15 2019-09-24 南京航空航天大学 一种基于构件影响力的软件可靠性评估方法
WO2020237729A1 (zh) * 2019-05-31 2020-12-03 东北大学 一种基于模式转移的虚拟机混合备用动态可靠性评估方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MARWAN AMMAR等: "System-Level Analysis of the Vulnerability of Processors Exposed to Single-Event Upsets via Probabilistic Model Checking", 《IEEE TRANSACTIONS ON NUCLEAR SCIENCE》 *
李蜜: "基于Z语言的嵌入式系统可靠性建模与评估技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王豪等: "一种高可靠宇航控制器设计及可靠性评估", 《计算机测量与控制》 *
范基坪等: "导航卫星单粒子软错误影响建模与仿真方法", 《北京航空航天大学学报》 *

Also Published As

Publication number Publication date
CN112799890B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
Bozzano et al. Safety, dependability and performance analysis of extended AADL models
O’Connor et al. A general cause based methodology for analysis of common cause and dependent failures in system risk and reliability assessments
Bozzano et al. The COMPASS approach: Correctness, modelling and performability of aerospace systems
Chen et al. Functional test generation using efficient property clustering and learning techniques
Simeu-Abazi et al. Fault diagnosis for discrete event systems: Modelling and verification
Prebeg et al. Application of a surrogate modeling to the ship structural design
Kabir et al. A hybrid modular approach for dynamic fault tree analysis
CN110134599B (zh) 一种系统体系结构错误行为验证方法及装置
CN110245085B (zh) 利用在线模型检验的嵌入式实时操作系统验证方法及系统
Abdurazik et al. Using coupling-based weights for the class integration and test order problem
Khairullah et al. Self‐repairing hardware architecture for safety‐critical cyber‐physical‐systems
Girard-Satabin et al. Caisar: A platform for characterizing artificial intelligence safety and robustness
Zhang et al. A novel reliability redundancy allocation problem formulation for complex systems
Zeng et al. Reliability analysis for complex systems based on generalized stochastic petri nets and EDA approach considering common cause failure
Boniol et al. PHYLOG certification methodology: a sane way to embed multi-core processors
CN112799890B (zh) 一种总线抗seu的可靠性建模与评估方法
CN114564202B (zh) 一种基于sat求解器的符号模型检测方法、检测系统及其应用
Wang et al. Improving the efficiency of functional verification based on test prioritization
CN114239538A (zh) 断言处理方法、装置、计算机设备及存储介质
CN114528131A (zh) 智能移动系统i/o接口可靠性分析方法及容错装置
Quan et al. Qualitative analysis for state/event fault trees using formal model checking
Beer et al. Analysis of an Airport Surveillance Radar using the QuantUM approach
Volk et al. SAFEST: Fault Tree Analysis Via Probabilistic Model Checking
JP2022124240A (ja) 診断パターン生成方法及び計算機
Jharko Formalizing the Safety Functions to Assure the Software Quality of NPP Safety Important Systems.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant