CN115577577B - 一种计算系统的可靠性评估方法和系统 - Google Patents

一种计算系统的可靠性评估方法和系统 Download PDF

Info

Publication number
CN115577577B
CN115577577B CN202211575800.7A CN202211575800A CN115577577B CN 115577577 B CN115577577 B CN 115577577B CN 202211575800 A CN202211575800 A CN 202211575800A CN 115577577 B CN115577577 B CN 115577577B
Authority
CN
China
Prior art keywords
state
computing system
trigger
computing
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211575800.7A
Other languages
English (en)
Other versions
CN115577577A (zh
Inventor
杨林
张龙
何鸿彬
朱然
杨峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Systems Engineering of PLA Academy of Military Sciences
Original Assignee
Institute of Systems Engineering of PLA Academy of Military Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Systems Engineering of PLA Academy of Military Sciences filed Critical Institute of Systems Engineering of PLA Academy of Military Sciences
Priority to CN202211575800.7A priority Critical patent/CN115577577B/zh
Publication of CN115577577A publication Critical patent/CN115577577A/zh
Application granted granted Critical
Publication of CN115577577B publication Critical patent/CN115577577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明给出了一种计算系统的可靠性评估方法和系统,属于工程技术领域,包括:获取计算系统中各个组件之间的连接关系和交互行为,以构建计算系统状态迁移模型;设置可靠性精度参数和可靠性置信参数,以确定仿真模拟次数;设置计算系统可靠性规约和每条计算系统执行路径的状态长度;根据所述计算系统状态迁移模型、仿真模拟次数和每条计算系统执行路径的状态长度,进行计算系统执行路径仿真模拟,以获取计算系统执行路径集;对所述计算系统执行路径集中每条计算系统执行路径进行可靠性判断。本发明在实现三冗余计算系统可靠性评估的同时,还展示计算系统的组件行为交互导致的故障传播行为对相关组件的影响,满足工程设计和安全分析要求。

Description

一种计算系统的可靠性评估方法和系统
技术领域
本发明属于工程技术领域,尤其涉及一种计算系统的可靠性评估方法和系统。
背景技术
可靠性是任务和安全攸关系统的基本特性,通常来说,可靠性是系统在出现故障的情况下,继续正确运行预期功能的能力。在可靠性工程中,所有可能的提高系统可靠性的方法中,一个常见和实用的方法是复制执行关键功能的组件,并将它们封装在冗余架构模式中,这样可以避免单点故障,当故障发生在有限数量的关键组件时,它们可以在重新配置时被识别和排除,而不会损害系统的整体功能。
三冗余计算系统是目前最著名的冗余架构模式之一,现已广泛应用于任务和安全关键系统的实际开发中。尽管设计和分析安全攸关系统的实际需要,但由于缺乏建模和自动化分析的具体技术,对冗余架构构建的计算系统进行可靠性分析通常是一项困难的任务。
动态故障树是一种分析系统可靠性的有效方法。它结合了传统的静态故障树分析方法和马尔科夫模型两者的优点,引入描述系统动态特征的逻辑门建立相应的动态故障树,从而对系统进行可靠性分析,被广泛应用到系统的可靠性建模和分析上,但是该技术存在无法对系统组件行为交互进行描述,无法表达系统组件之间的相互影响,从而影响系统可靠性评估的精确性。
发明内容
本发明的目的之一,在于提供一种计算系统的可靠性评估方法,该可靠性评估方法在实现三冗余计算系统可靠性评估的同时,还展示计算系统的组件行为交互导致的故障传播行为对相关组件的影响,满足工程设计和安全分析要求。
本发明的目的之二,在于提供一种计算系统的可靠性评估系统。
为了达到上述目的之一,本发明采用如下技术方案实现:
一种计算系统的可靠性评估方法,所述可靠性评估方法包括:
步骤S1、获取计算系统中各个组件之间的连接关系和交互行为,以构建计算系统状态迁移模型;
所述计算系统状态迁移模型为有向图;
步骤S2、设置可靠性精度参数和可靠性置信参数,以确定仿真模拟次数;
步骤S3、设置计算系统可靠性规约和每条计算系统执行路径的状态长度;
步骤S4、根据所述计算系统状态迁移模型、仿真模拟次数和每条计算系统执行路径的状态长度,进行计算系统执行路径仿真模拟,以获取计算系统执行路径集;
步骤S5、对所述计算系统执行路径集中每条计算系统执行路径进行可靠性判断,以确定所述计算系统满足所述计算系统可靠性规约的概率。
进一步的,在所述步骤S1中,所述计算系统的组件包括1个触发器、3个计算单元和1个投票器;所述计算系统状态迁移模型的构建过程包括:
步骤S11、设置所述触发器、计算单元和投票器的各个状态,以获取所述计算系统状态迁移模型中的各个状态节点,并进行状态变量标记;
步骤S12、根据所述触发器、计算单元和投票器之间的物理连接关系,确定所述触发器、计算单元和投票器的端口;
步骤S13、根据所述触发器、计算单元和投票器通过各个端口发生的交互行为,确定所述触发器、计算单元和投票器内各个状态之间的状态迁移方向;
步骤S14、根据所述触发器、计算单元和投票器之间通过各个端口发生交互行为的约束条件,设置所述触发器、计算单元和投票器内各个状态之间的状态迁移约束条件。
进一步的,在所述步骤S12中,所述触发器的端口包括计算信号触发端口、投票信号触发端口和信号清除触发端口;
每个计算单元的端口包括计算端口、计算结果输出端口、故障输出端口和计算结果清除端口;
所述投票器的端口包括投票端口、3个计算单元各自对应的故障输入端口、3个计算单元各自对应的正常结果输入端口、投票结果输出端口和投票清除端口。
进一步的,所述触发器的状态包括计算信号触发状态、投票信号触发状态和信号清除触发状态;
所述计算信号触发状态、投票信号触发状态和信号清除触发状态的状态变量均为时钟值;
所述触发器的状态迁移方向依次为所述计算信号触发状态、投票信号触发状态、信号清除触发状态和计算信号触发状态,形成闭环状态迁移;
所述计算信号触发状态向所述投票信号触发状态迁移的状态迁移约束条件为时钟值大于第一时钟阈值,小于第二时钟阈值;
所述投票信号触发状态向所述信号清除触发状态迁移的状态迁移约束条件为时钟值大于第二时钟阈值,小于第三时钟阈值;
所述信号清除触发状态向所述计算信号触发状态迁移的状态迁移约束条件为时钟值大于第三时钟阈值;
所述计算单元的状态包括正常状态和故障状态;所述故障状态包括死锁状态、输出错误结果状态和活锁状态;
所述死锁状态表示所述计算单元不执行计算且不输出计算结果;所述输出错误结果状态表示所述计算单元执行计算,但输出错误结果;所述活锁状态表示所述计算单元执行计算,但不输出计算结果;
所述正常状态分别向所述死锁状态、输出错误结果状态和活锁状态迁移;所述输出错误结果状态分别向所述死锁状态和活锁状态迁移;所述计算单元的状态迁移约束条件为发生各自对应故障的时间满足伽马分布;
所述投票器的状态包括开始投票状态、3个计算单元各自对应的故障输入状态、3个计算单元各自对应的正常结果输入状态、投票结果输出状态和投票结束状态;
所述投票器的状态迁移方向依次为所述开始投票状态、第一计算故障输入状态、第二计算故障输入状态、第三计算故障输入状态、第一计算单元正常结果输入状态、第二计算单元正常结果输入状态、第三计算单元正常结果输入状态、投票结果输出状态、投票结束状态和开始投票状态,形成闭环状态迁移,每次状态迁移约束条件为各自对应端口的事件发生。
进一步的,在步骤S4中,所述仿真模拟的具体实现过程包括:
步骤S41、设置仿真模拟序号 i的初始值为1;
步骤S42、设置第 i次仿真模拟的每条计算系统执行子路径的状态序号 j的初始值为1;
步骤S43、从所述计算系统状态迁移模型中提取所述触发器、所述3个计算单元和所述投票器的各个状态迁移约束条件,以确定执行仿真模拟过程的所述触发器、所述3个计算单元和所述投票器各自对应的执行时间集和故障事件集;
步骤S44、按照所述时间集和故障事件集,产生第 i次仿真模拟第 j个状态序号对应的计算系统执行子路径;
步骤S45、判断 j是否等于计算系统执行路径的状态长度,如是,则进入步骤S46;如否,则令 j= j+1,返回步骤S43;
步骤S46、将第 i次仿真模拟产生的所有计算系统执行子路径合并,形成第 i条计算系统执行路径;
步骤S47、判断 i是否等于仿真模拟次数,如是,则输出所有计算系统执行路径;如否,则令 i= i+1,返回步骤S42。
进一步的,在所述步骤S5中,所述可靠性判断的具体实现过程包括:
步骤S51、对所述计算系统执行路径集中各条计算系统执行路径是否满足所述计算系统可靠性规约进行裁决,如满足,则裁决结果为1;如不满足,则裁决结果为0;
步骤S52、计算所有裁决结果的均值,并将所述均值作为所述计算系统的可靠性概率。
为了达到上述目的之二,本发明采用如下技术方案实现:
一种计算系统的可靠性评估系统,所述可靠性评估系统包括:
构建模块,用于获取计算系统中各个组件之间的连接关系和交互行为,以构建计算系统状态迁移模型;
所述计算系统状态迁移模型为有向图;
第一设置模块,用于设置可靠性精度参数和可靠性置信参数,以确定仿真模拟次数;
第二设置模块,用于设置计算系统可靠性规约和每条计算系统执行路径的状态长度;
仿真模拟模块,用于根据所述计算系统状态迁移模型、仿真模拟次数和每条计算系统执行路径的状态长度,进行计算系统执行路径仿真模拟,以获取计算系统执行路径集;
判断模块,用于对所述计算系统执行路径集中每条计算系统执行路径进行可靠性判断,以确定所述计算系统满足所述计算系统可靠性规约的概率。
进一步的,所述计算系统的组件包括1个触发器、3个计算单元和1个投票器;所述构建模块包括:
第一设置子模块,用于设置所述触发器、计算单元和投票器的各个状态,以获取所述计算系统状态迁移模型中的各个状态节点,并进行状态变量标记;
第一确定子模块,用于根据所述触发器、计算单元和投票器之间的物理连接关系,确定所述触发器、计算单元和投票器的端口;
第二确定子模块,用于根据所述触发器、计算单元和投票器通过各个端口发生的交互行为,确定所述触发器、计算单元和投票器内各个状态之间的状态迁移方向;
第二设置子模块,用于根据所述触发器、计算单元和投票器之间通过各个端口发生交互行为的约束条件,设置所述触发器、计算单元和投票器内各个状态之间的状态迁移约束条件。
进一步的,所述仿真模拟模块包括:
第三设置子模块,用于设置仿真模拟序号 i的初始值为1;
第四设置子模块,用于设置第 i次仿真模拟的每条计算系统执行子路径的状态序号 j的初始值为1;
提取子模块,用于从所述计算系统状态迁移模型中提取所述触发器、所述3个计算单元和所述投票器的各个状态迁移约束条件,以确定执行仿真模拟过程的所述触发器、所述3个计算单元和所述投票器各自对应的执行时间集和故障事件集;
产生子模块,用于按照所述时间集和故障事件集,产生第 i次仿真模拟第 j个状态序号对应的计算系统执行子路径;
第一判断子模块,用于判断 j是否等于计算系统执行路径的状态长度,如是,则将第 i次仿真模拟第 j个状态序号对应的计算系统执行子路径传输给;如否,则令 j= j+1,并传输给所述提取子模块;
合并子模块,用于将第 i次仿真模拟产生的所有计算系统执行子路径合并,形成第 i条计算系统执行路径;
第二判断子模块,用于判断 i是否等于仿真模拟次数,如是,则输出所有计算系统执行路径,结束;如否,则令 i= i+1,并传输给所述第三设置子模块。
进一步的,所述判断模块包括:
裁决子模块,用于对所述计算系统执行路径集中各条计算系统执行路径是否满足所述计算系统可靠性规约进行裁决,如满足,则裁决结果为1;如不满足,则裁决结果为0;
计算子模块,用于计算所有裁决结果的均值,并将所述均值作为所述计算系统的可靠性概率。
本发明的技术方案的有益效果:
本发明通过计算系统中各个组件之间的连接关系和交互行为,构建计算系统状态迁移模型;并通过仿真参数,实现计算系统状态迁移模型进行计算系统执行路径仿真模拟,从而实现了三冗余计算系统的可靠性评估,同时还展示计算系统的组件交互行为对系统可靠性的影响,满足工程设计和安全分析要求。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的计算系统的可靠性评估方法流程示意图;
图2为计算系统结构示意图;
图3为计算系统的组件连接关系示意图;
图4为计算系统状态迁移模型中触发器状态迁移模型示意图;
图5为计算系统状态迁移模型中计算单元状态迁移模型示意图;
图6为计算系统状态迁移模型中投票器状态迁移模型示意图;
图7为计算系统的可靠性分析结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例给出了一种计算系统的可靠性评估方法,参考图1,该可靠性评估方法包括:
S1、获取计算系统中各个组件之间的连接关系和交互行为,以构建计算系统状态迁移模型。
本实施例的计算系统状态迁移模型为有向图,有向图包括状态节点和状态节点之间的有向连线。有向连线为状态迁移方向,有向连线上标记为状态迁移约束条件。
本实施例的计算系统为常见的高可靠三冗余计算系统,其结构参考图2,包括1个触发器、3个计算单元和1个投票器。触发器周期性地发送计算数值输入和触发信号,与三个计算单元(如图2所示的计算单元0、计算单元1和计算单元2)相连。3个计算单元并行运行,对触发器输入的计算数值进行计算,并将计算结果输出到投票器。投票器获得三个计算模块的输出结果,并通过多数原则,选择计算单元的输出结果作为最终结果。若三个计算单元的输出结果都不相同,则随机选择一个计算单元的输出结果作为最终输出。
本实施例的计算系统状态迁移模型的构建过程包括:
步骤S11、设置所述触发器、计算单元和投票器的各个状态,以获取所述计算系统状态迁移模型中的各个状态节点,并进行状态变量标记。
本实施例中,触发器的状态包括计算信号触发状态、投票信号触发状态和信号清除触发状态。计算信号触发状态、投票信号触发状态和信号清除触发状态的状态变量均为时钟值。
计算单元的状态包括正常状态和故障状态。故障状态包括死锁状态、输出错误结果状态和活锁状态。死锁状态表示计算单元不执行计算且不输出计算结果。输出错误结果状态表示计算单元执行计算,但输出错误结果。活锁状态表示所述计算单元执行计算,但不输出计算结果。
投票器的状态包括开始投票状态、3个计算单元各自对应的故障输入状态、3个计算单元各自对应的正常结果输入状态、投票结果输出状态和投票结束状态。
步骤S12、根据所述触发器、计算单元和投票器之间的物理连接关系,确定所述触发器、计算单元和投票器的端口;
本实施例的触发器、计算单元和投票器之间的物理连接关系,触发器的端口包括计算信号触发端口、投票信号触发端口和信号清除触发端口。
每个计算单元的端口包括计算端口、计算结果输出端口、故障输出端口和计算结果清除端口。
投票器的端口包括投票端口、3个计算单元各自对应的故障输入端口、3个计算单元各自对应的正常结果输入端口、投票结果输出端口和投票清除端口。
步骤S13、根据所述触发器、计算单元和投票器通过各个端口发生的交互行为,确定所述触发器、计算单元和投票器内各个状态之间的状态迁移方向。
本实施例中,触发器的状态迁移方向依次为计算信号触发状态、投票信号触发状态、信号清除触发状态和计算信号触发状态,形成闭环状态迁移。
计算单元中的正常状态分别向死锁状态、输出错误结果状态和活锁状态迁移,输出错误结果状态分别向死锁状态和活锁状态迁移。
投票器的状态迁移方向依次为开始投票状态、第一计算故障输入状态、第二计算故障输入状态、第三计算故障输入状态、第一计算单元正常结果输入状态、第二计算单元正常结果输入状态、第三计算单元正常结果输入状态、投票结果输出状态、投票结束状态(即投票结果清除状态)和开始投票状态,形成闭环状态迁移。
步骤S14、根据所述触发器、计算单元和投票器之间通过各个端口发生交互行为的约束条件,设置所述触发器、计算单元和投票器内各个状态之间的状态迁移约束条件。
本实施例中,计算信号触发状态向投票信号触发状态迁移的状态迁移约束条件为时钟值大于第一时钟阈值,小于第二时钟阈值。投票信号触发状态向信号清除触发状态迁移的状态迁移约束条件为时钟值大于第二时钟阈值,小于第三时钟阈值。信号清除触发状态向计算信号触发状态迁移的状态迁移约束条件为时钟值大于第三时钟阈值。
计算单元的状态迁移约束条件为发生各自对应故障的时间满足伽马分布。投票器中,每次状态迁移约束条件为各自对应端口的事件发生。
参考图3,触发器通过端口xms周期性地发送触发计算信号,通过端口x5ms周期性地发送投票信号,通过端口clear周期性地发送清除信号。三个计算单元通过端口xms同步地进行计算并输出结果,通过端口clear清除输出结果,通过端口output将输出结果发送给投票器,通过端口fault将故障情况发送给投票器。投票器通过x5ms开始工作,通过端口fault0、fault1和fault2获得三个计算单元的故障情况,通过端口input0、input1和input2接送三个计算单元的输出结果,并对三个计算单元的输出结果进行裁决,输出最终结果,通过clear对结果进行清除,表示一次投票结束。
参考图4的触发器状态迁移模型,触发器的初始状态(即计算信号触发状态)为S0,时钟值 x为0(即第一时钟阈值为0),单位为毫秒。当时钟值 x大于0,小于5时,触发器通过迁移xms(即计算信号触发端口)从计算信号触发状态S0迁移到投票信号触发状态S1。当时钟值 x大于等于5(CU_PERIOD为5毫秒,即第二时钟阈值为5),小于10(即第三时钟阈值)时,触发器通过迁移x5ms(投票信号触发端口)从投票信号触发状态S1迁移到信号清除触发状态S2,时钟值 x的值重置为0。接着当时钟值 x大于等于10(VOTER_PERIOD为10毫秒,第三时钟阈值)时,触发器通过迁移clear(即信号清除触发端口)从信号清除触发状态S2迁移到计算信号触发状态S0,时钟值 x重置为0。触发器按照这种迁移规则依次循环。
参考图5的计算单元状态迁移模型,计算单元的初始状态为正常状态Good,对应的状态变量包括输出结果正确、计算单元没有发生故障和时钟值 x,输出结果正确、计算单元没有发生故障和时钟值 x分别采用cu_output=1、cu_fault=0和0表示。当计算单元处于正常工作时,计算单元位于正常状态Good通过迁移xms(即计算端口)和clear(即计算结果清除端口)输出正确结果和清除计算结果。当计算单元发生死锁时,计算单元通过迁移ge0(即故障输出端口)从正常状态Good到死锁状态Error0,迁移ge0发生的时间满足gamma(100,1)的分布,变量cu_fault为1(表示计算单元发生故障)。当计算单元发生输出错误和活锁时,迁移描述与发生死锁的情况类似。当计算单元处于输出错误状态时,计算单元位于Error1,通过迁移xms(即计算端口),变量cu_output为-1(表示输出结果错误),变量cu_fault=0(表示计算单元没有发生故障)。通过迁移clear,变量cu_output为0(表示输出结果清除),变量cu_fault为0(表示计算单元没有发生故障)。计算单元处于输出错误状态时还存在发生死锁和活锁的可能,当计算单元在输出错误状态发生死锁时,计算单元通过迁移ee10(即故障输出端口)从状态Error1到状态Error0,迁移ee10发生的时间满足gamma(1000,1)的分布,变量cu_fault为1(表示计算单元发生故障)。计算单元在输出错误状态发生活锁的迁移描述与发生死锁的情况类似,这里不再一一赘述。
参考图6的投票器状态迁移模型,投票器的初始状态为开始投票状态S0,并对状态变量赋予初值,cu_fault=0表示计算单元无故障情况,cu_output=1表示计算单元输出正常,voter_output=1表示计算子系统输出正常。投票器通过迁移x5ms(即投票端口)从开始投票状态S0到向计算单元0的故障输入状态S1,表示投票器开始投票。通过迁移fault0(计算单元0的故障输入端口)从计算单元0的故障输入状态S1到计算单元1的故障输入状态S2,接收来自计算单元0的故障信息,若计算单元0处于故障状态,变量cu_fault0重新赋值为1。投票器通过迁移fault1(计算单元1的故障输入端口)从计算单元1的故障输入状态S2到计算单元2的故障输入状态S3,接收来自计算单元1的故障信息,若计算单元1处于故障状态,变量cu_fault1重新赋值为1。投票器通过迁移fault2(计算单元2的故障输入端口)从计算单元2的故障输入状态S3到计算单元0的正常结果输入状态S4,接收来自计算单元2的故障信息,若计算单元2处于故障状态,变量cu_fault2重新赋值为1。投票器通过迁移input0(计算单元0的正常结果输入端口)从计算单元0的正常结果输入状态S4到计算单元1的正常结果输入状态S5,接收来自计算单元0的输出结果,若计算单元0输出错误,变量cu_output0重新赋值为-1。投票器通过迁移input1(计算单元1的正常结果输入端口)从计算单元1的正常结果输入状态S5到计算单元2的正常结果输入状态S6,接收来自计算单元1的输出结果,若计算单元1输出错误,变量cu_output1重新赋值为-1。投票器通过迁移input2(计算单元2的正常结果输入端口)从计算单元2的正常结果输入状态到投票结果输出状态S7,接收来自计算单元2的输出结果,若计算单元2输出错误,变量cu_output2重新赋值为-1。投票器通过迁移output(投票结果输出端口)从投票结果输出状态S7到投票结束状态S8,对三个计算单元的故障情况进行分析,并对计算单元的输出结果按照少数服从多数原则进行计算,输出计算子系统的最终结果。最后,投票器通过迁移clear(投票清除端口)从投票结束状态S8到开始投票状态S0,将结果进行清除,表示一次投票结束。
S2、设置可靠性精度参数和可靠性置信参数,以确定仿真模拟次数。
本实施例中,仿真模拟次数与可靠性精度参数和可靠性置信参数满足如下条件:
;     (1)
其中, m为仿真模拟次数; δα分别为可靠性精度参数和可靠性置信参数。本实施例的仿真模拟次数为100次。
S3、设置计算系统可靠性规约和每条计算系统执行路径的状态长度。
本实施例的计算系统可靠性规约为:
      (6)
其中, reliability为计算系统可靠性规约; cf i 为第 i个计算单元CU处于故障状态;为第 i个计算单元CU处于正常状态, i=0,1和2。
本实施例中的每条计算系统执行路径的状态长度一般设置为1000次。
S4、根据所述计算系统状态迁移模型、仿真模拟次数和每条计算系统执行路径的状态长度,进行计算系统执行路径仿真模拟,以获取计算系统执行路径集。
本实施例的仿真模拟的具体实现过程包括:
步骤S41、设置仿真模拟序号 i的初始值为1;
步骤S42、设置第 i次仿真模拟的每条计算系统执行子路径的状态序号 j的初始值为1;
步骤S43、从所述计算系统状态迁移模型中提取所述触发器、所述3个计算单元和所述投票器的各个状态迁移约束条件,以确定执行仿真模拟过程的所述触发器、所述3个计算单元和所述投票器各自对应的执行时间集和故障事件集;
步骤S44、按照所述时间集和故障事件集,产生第 i次仿真模拟第 j个状态序号对应的计算系统执行子路径;
步骤S45、判断 j是否等于计算系统执行路径的状态长度,如是,则进入步骤S46;如否,则令 j= j+1,返回步骤S43;
步骤S46、将第 i次仿真模拟产生的所有计算系统执行子路径合并,形成第 i条计算系统执行路径;
步骤S47、判断 i是否等于仿真模拟次数,如是,则输出所有计算系统执行路径;如否,则令 i= i+1,返回步骤S42。
本实施例中的每条计算系统执行路径包括状态序号、组件名称向量和组件状态向量,计算系统执行路径中的state表示执行路径的序号,( c 0c 1c 2c 3c 4)分别表示触发器、计算单元1、计算单元2、计算单元3以及投票器的状态。初始,计算系统位于state0,触发器、计算单元1、计算单元2、计算单元3和投票器的状态分别是S0,Good,Good,Good,S0。经过一步迁移,系统位于state1,触发器、计算单元1、计算单元2、计算单元3和投票器的状态分别是S1,Good,Good,Good,S0。经过999步迁移,系统最终位于state999,触发器、计算单元1、计算单元2、计算单元3和投票器的状态分别是S1,Error1,Error1,Good,S5,具体表示如下:
state0﹤( c 0c 1c 2c 3c 4),(S0,Good,Good,Good,S0)﹥;
state1﹤( c 0c 1c 2c 3c 4),(S1,Good,Good,Good,S0)﹥;
state2﹤( c 0c 1c 2c 3c 4),(S2,Good,Good,Good,S0)﹥;
state3﹤( c 0c 1c 2c 3c 4),(S0,Good,Good,Good,S0)﹥;
State97﹤( c 0c 1c 2c 3c 4),(S0,Error1,Good,Good,S0)﹥;
State98﹤( c 0c 1c 2c 3c 4),(S0,Error1,Error1,Good,S0)﹥;
State99﹤( c 0c 1c 2c 3c 4),(S0,Error1,Error1,Good,S1)﹥;
State998﹤( c 0c 1c 2c 3c 4),(S1,Error1,Error1,Good,S4)﹥;
State999﹤( c 0c 1c 2c 3c 4),(S1,Error1,Error1,Good,S5)﹥;
S5、对所述计算系统执行路径集中每条计算系统执行路径进行可靠性判断,以确定所述计算系统满足所述计算系统可靠性规约的概率。
本实施例的可靠性判断的具体实现过程包括:
步骤S51、对所述计算系统执行路径集中各条计算系统执行路径是否满足所述计算系统可靠性规约进行裁决,如满足,则裁决结果为1;如不满足,则裁决结果为0;
步骤S52、计算所有裁决结果的均值,并将所述均值作为所述计算系统的可靠性概率。
在这999步迁移过程中,存在两个两个或两个以上的计算单元处于故障状态的情况(如state98),所以该执行路径满足reliability规约,监控器判断结果为1。系统按此执行方式进行100次执行路径仿真,最后对所有的结果进行统计计算,输出结果为1的比值,从而得到系统满足reliability规约的概率。
单个计算单元和计算系统的可靠性规约分析结果如图7所示。纵坐标为系统的可靠性概率,横坐标为系统的执行时间,从图7可以看出计算系统的可靠性一直高于单个计算单元的可靠性,同时随着时间的增长,计算系统的可靠性概率一直在降低,并最终趋近于0。
本实施例通过计算系统中各个组件之间的连接关系和交互行为,构建计算系统状态迁移模型;并通过仿真参数,实现计算系统状态迁移模型进行计算系统执行路径仿真模拟,从而实现了三冗余计算系统的可靠性评估,同时还展示计算系统的组件交互行为对系统可靠性的影响,满足工程设计和安全分析要求。
上述实施例可采用如下实施例给出的计算系统的可靠性评估系统实现:
另一实施例给出了一种计算系统的可靠性评估系统,该可靠性评估系统包括:
构建模块,用于获取计算系统中各个组件之间的连接关系和交互行为,以构建计算系统状态迁移模型;
所述计算系统状态迁移模型为有向图,所述有向图包括状态节点和状态节点之间的有向连线;所述有向连线为状态迁移方向;所述有向连线上标记为状态迁移约束条件;
第一设置模块,用于设置可靠性精度参数和可靠性置信参数,以确定仿真模拟次数;
第二设置模块,用于设置计算系统可靠性规约和每条计算系统执行路径的状态长度;
仿真模拟模块,用于根据所述计算系统状态迁移模型、仿真模拟次数和每条计算系统执行路径的状态长度,进行计算系统执行路径仿真模拟,以获取计算系统执行路径集;
判断模块,用于对所述计算系统执行路径集中每条计算系统执行路径进行可靠性判断,以确定所述计算系统满足所述计算系统可靠性规约的概率。
进一步的,所述计算系统的组件包括1个触发器、3个计算单元和1个投票器;所述构建模块包括:
第一设置子模块,用于设置所述触发器、计算单元和投票器的各个状态,以获取所述计算系统状态迁移模型中的各个状态节点,并进行状态变量标记;
第一确定子模块,用于根据所述触发器、计算单元和投票器之间的物理连接关系,确定所述触发器、计算单元和投票器的端口;
第二确定子模块,用于根据所述触发器、计算单元和投票器通过各个端口发生的交互行为,确定所述触发器、计算单元和投票器内各个状态之间的状态迁移方向;
第二设置子模块,用于根据所述触发器、计算单元和投票器之间通过各个端口发生交互行为的约束条件,设置所述触发器、计算单元和投票器内各个状态之间的状态迁移约束条件。
进一步的,所述仿真模拟模块包括:
第三设置子模块,用于设置仿真模拟序号 i的初始值为1;
第四设置子模块,用于设置第 i次仿真模拟的每条计算系统执行子路径的状态序号 j的初始值为1;
提取子模块,用于从所述计算系统状态迁移模型中提取所述触发器、所述3个计算单元和所述投票器的各个状态迁移约束条件,以确定执行仿真模拟过程的所述触发器、所述3个计算单元和所述投票器各自对应的执行时间集和故障事件集;
产生子模块,用于按照所述时间集和故障事件集,产生第 i次仿真模拟第 j个状态序号对应的计算系统执行子路径;
第一判断子模块,用于判断 j是否等于计算系统执行路径的状态长度,如是,则将第 i次仿真模拟第 j个状态序号对应的计算系统执行子路径传输给;如否,则令 j= j+1,并传输给所述提取子模块;
合并子模块,用于将第 i次仿真模拟产生的所有计算系统执行子路径合并,形成第 i条计算系统执行路径;
第二判断子模块,用于判断 i是否等于仿真模拟次数,如是,则输出所有计算系统执行路径,结束;如否,则令 i= i+1,并传输给所述第三设置子模块。
进一步的,判断模块包括:
裁决子模块,用于对所述计算系统执行路径集中各条计算系统执行路径是否满足所述计算系统可靠性规约进行裁决,如满足,则裁决结果为1;如不满足,则裁决结果为0;
计算子模块,用于计算所有裁决结果的均值,并将所述均值作为所述计算系统的可靠性概率。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种计算系统的可靠性评估方法,其特征在于,所述可靠性评估方法包括:
步骤S1、获取计算系统中各个组件之间的连接关系和交互行为,以构建计算系统状态迁移模型;
所述计算系统状态迁移模型为有向图;
步骤S2、设置可靠性精度参数和可靠性置信参数,以确定仿真模拟次数;
步骤S3、设置计算系统可靠性规约和每条计算系统执行路径的状态长度;
步骤S4、根据所述计算系统状态迁移模型、仿真模拟次数和每条计算系统执行路径的状态长度,进行计算系统执行路径仿真模拟,以获取计算系统执行路径集;
步骤S5、对所述计算系统执行路径集中每条计算系统执行路径进行可靠性判断,以确定所述计算系统满足所述计算系统可靠性规约的概率;
在所述步骤S1中,所述计算系统的组件包括1个触发器、3个计算单元和1个投票器;所述计算系统状态迁移模型的构建过程包括:
步骤S11、设置所述触发器、计算单元和投票器的各个状态,以获取所述计算系统状态迁移模型中的各个状态节点,并进行状态变量标记;
步骤S12、根据所述触发器、计算单元和投票器之间的物理连接关系,确定所述触发器、计算单元和投票器的端口;
步骤S13、根据所述触发器、计算单元和投票器通过各个端口发生的交互行为,确定所述触发器、计算单元和投票器内各个状态之间的状态迁移方向;
步骤S14、根据所述触发器、计算单元和投票器之间通过各个端口发生交互行为的约束条件,设置所述触发器、计算单元和投票器内各个状态之间的状态迁移约束条件;
在所述步骤S12中,所述触发器的端口包括计算信号触发端口、投票信号触发端口和信号清除触发端口;
每个计算单元的端口包括计算端口、计算结果输出端口、故障输出端口和计算结果清除端口;
所述投票器的端口包括投票端口、3个计算单元各自对应的故障输入端口、3个计算单元各自对应的正常结果输入端口、投票结果输出端口和投票清除端口。
2.根据权利要求1所述的可靠性评估方法,其特征在于,所述触发器的状态包括计算信号触发状态、投票信号触发状态和信号清除触发状态;
所述计算信号触发状态、投票信号触发状态和信号清除触发状态的状态变量均为时钟值;
所述触发器的状态迁移方向依次为所述计算信号触发状态、投票信号触发状态、信号清除触发状态和计算信号触发状态,形成闭环状态迁移;
所述计算信号触发状态向所述投票信号触发状态迁移的状态迁移约束条件为时钟值大于第一时钟阈值,小于第二时钟阈值;
所述投票信号触发状态向所述信号清除触发状态迁移的状态迁移约束条件为时钟值大于第二时钟阈值,小于第三时钟阈值;
所述信号清除触发状态向所述计算信号触发状态迁移的状态迁移约束条件为时钟值大于第三时钟阈值;
所述计算单元的状态包括正常状态和故障状态;所述故障状态包括死锁状态、输出错误结果状态和活锁状态;
所述死锁状态表示所述计算单元不执行计算且不输出计算结果;所述输出错误结果状态表示所述计算单元执行计算,但输出错误结果;所述活锁状态表示所述计算单元执行计算,但不输出计算结果;
所述正常状态分别向所述死锁状态、输出错误结果状态和活锁状态迁移;所述输出错误结果状态分别向所述死锁状态和活锁状态迁移;所述计算单元的状态迁移约束条件为发生各自对应故障的时间满足伽马分布;
所述投票器的状态包括开始投票状态、3个计算单元各自对应的故障输入状态、3个计算单元各自对应的正常结果输入状态、投票结果输出状态和投票结束状态;
所述投票器的状态迁移方向依次为所述开始投票状态、第一计算故障输入状态、第二计算故障输入状态、第三计算故障输入状态、第一计算单元正常结果输入状态、第二计算单元正常结果输入状态、第三计算单元正常结果输入状态、投票结果输出状态、投票结束状态和开始投票状态,形成闭环状态迁移,每次状态迁移约束条件为各自对应端口的事件发生。
3.根据权利要求2所述的可靠性评估方法,其特征在于,在步骤S4中,所述仿真模拟的具体实现过程包括:
步骤S41、设置仿真模拟序号i的初始值为1;
步骤S42、设置第i次仿真模拟的每条计算系统执行子路径的状态序号j的初始值为1;
步骤S43、从所述计算系统状态迁移模型中提取所述触发器、所述3个计算单元和所述投票器的各个状态迁移约束条件,以确定执行仿真模拟过程的所述触发器、所述3个计算单元和所述投票器各自对应的执行时间集和故障事件集;
步骤S44、按照所述时间集和故障事件集,产生第i次仿真模拟第j个状态序号对应的计算系统执行子路径;
步骤S45、判断j是否等于计算系统执行路径的状态长度,如是,则进入步骤S46;如否,则令j=j+1,返回步骤S43;
步骤S46、将第i次仿真模拟产生的所有计算系统执行子路径合并,形成第i条计算系统执行路径;
步骤S47、判断i是否等于仿真模拟次数,如是,则输出所有计算系统执行路径;如否,则令i=i+1,返回步骤S42。
4.根据权利要求3所述的可靠性评估方法,其特征在于,在所述步骤S5中,所述可靠性判断的具体实现过程包括:
步骤S51、对所述计算系统执行路径集中各条计算系统执行路径是否满足所述计算系统可靠性规约进行裁决,如满足,则裁决结果为1;如不满足,则裁决结果为0;
步骤S52、计算所有裁决结果的均值,并将所述均值作为所述计算系统的可靠性概率。
5.一种计算系统的可靠性评估系统,其特征在于,所述可靠性评估系统包括:
构建模块,用于获取计算系统中各个组件之间的连接关系和交互行为,以构建计算系统状态迁移模型;
所述计算系统状态迁移模型为有向图;
第一设置模块,用于设置可靠性精度参数和可靠性置信参数,以确定仿真模拟次数;
第二设置模块,用于设置计算系统可靠性规约和每条计算系统执行路径的状态长度;
仿真模拟模块,用于根据所述计算系统状态迁移模型、仿真模拟次数和每条计算系统执行路径的状态长度,进行计算系统执行路径仿真模拟,以获取计算系统执行路径集;
判断模块,用于对所述计算系统执行路径集中每条计算系统执行路径进行可靠性判断,以确定所述计算系统满足所述计算系统可靠性规约的概率;
所述计算系统的组件包括1个触发器、3个计算单元和1个投票器;所述构建模块包括:
第一设置子模块,用于设置所述触发器、计算单元和投票器的各个状态,以获取所述计算系统状态迁移模型中的各个状态节点,并进行状态变量标记;
第一确定子模块,用于根据所述触发器、计算单元和投票器之间的物理连接关系,确定所述触发器、计算单元和投票器的端口;
第二确定子模块,用于根据所述触发器、计算单元和投票器通过各个端口发生的交互行为,确定所述触发器、计算单元和投票器内各个状态之间的状态迁移方向;
第二设置子模块,用于根据所述触发器、计算单元和投票器之间通过各个端口发生交互行为的约束条件,设置所述触发器、计算单元和投票器内各个状态之间的状态迁移约束条件;
所述触发器的端口包括计算信号触发端口、投票信号触发端口和信号清除触发端口;
每个计算单元的端口包括计算端口、计算结果输出端口、故障输出端口和计算结果清除端口;
所述投票器的端口包括投票端口、3个计算单元各自对应的故障输入端口、3个计算单元各自对应的正常结果输入端口、投票结果输出端口和投票清除端口。
6.根据权利要求5所述的可靠性评估系统,其特征在于,所述仿真模拟模块包括:
第三设置子模块,用于设置仿真模拟序号i的初始值为1;
第四设置子模块,用于设置第i次仿真模拟的每条计算系统执行子路径的状态序号j的初始值为1;
提取子模块,用于从所述计算系统状态迁移模型中提取所述触发器、所述3个计算单元和所述投票器的各个状态迁移约束条件,以确定执行仿真模拟过程的所述触发器、所述3个计算单元和所述投票器各自对应的执行时间集和故障事件集;
产生子模块,用于按照所述时间集和故障事件集,产生第i次仿真模拟第j个状态序号对应的计算系统执行子路径;
第一判断子模块,用于判断j是否等于计算系统执行路径的状态长度,如是,则将第i次仿真模拟第j个状态序号对应的计算系统执行子路径传输给;如否,则令j=j+1,并传输给所述提取子模块;
合并子模块,用于将第i次仿真模拟产生的所有计算系统执行子路径合并,形成第i条计算系统执行路径;
第二判断子模块,用于判断i是否等于仿真模拟次数,如是,则输出所有计算系统执行路径,结束;如否,则令i=i+1,并传输给所述第三设置子模块。
7.根据权利要求6所述的可靠性评估系统,其特征在于,所述判断模块包括:
裁决子模块,用于对所述计算系统执行路径集中各条计算系统执行路径是否满足所述计算系统可靠性规约进行裁决,如满足,则裁决结果为1;如不满足,则裁决结果为0;
计算子模块,用于计算所有裁决结果的均值,并将所述均值作为所述计算系统的可靠性概率。
CN202211575800.7A 2022-12-09 2022-12-09 一种计算系统的可靠性评估方法和系统 Active CN115577577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211575800.7A CN115577577B (zh) 2022-12-09 2022-12-09 一种计算系统的可靠性评估方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211575800.7A CN115577577B (zh) 2022-12-09 2022-12-09 一种计算系统的可靠性评估方法和系统

Publications (2)

Publication Number Publication Date
CN115577577A CN115577577A (zh) 2023-01-06
CN115577577B true CN115577577B (zh) 2023-04-07

Family

ID=84590671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211575800.7A Active CN115577577B (zh) 2022-12-09 2022-12-09 一种计算系统的可靠性评估方法和系统

Country Status (1)

Country Link
CN (1) CN115577577B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2015111142A1 (ja) * 2014-01-22 2017-03-23 株式会社日立製作所 システム解析装置、設計不良解析装置、故障モード解析装置、故障ツリー解析装置、自律動作装置及び自律動作制御システム
CN109492256B (zh) * 2018-10-15 2022-10-25 华南理工大学 一种动态系统状态概率映射矩阵多向搜索方法
CN115081184A (zh) * 2022-05-16 2022-09-20 华南理工大学 多源数据融合动态系统情景行为推演和可靠性预计分析方法及系统

Also Published As

Publication number Publication date
CN115577577A (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
US11922335B2 (en) Method and system for evaluating macro resilience of offshore oil well control equipment
CN103308824B (zh) 一种基于概率Petri网的电力系统故障诊断方法
US6910173B2 (en) Word voter for redundant systems
CN108376221A (zh) 一种基于aadl模型扩展的软件系统安全性验证与评估方法
RU2336566C2 (ru) Способ моделирования процессов обеспечения технической готовности сетей связи при технической эксплуатации и система для его реализации
CN105678337B (zh) 一种智能变电站故障诊断中的信息融合方法
KR101757086B1 (ko) 테크니컬 시스템의 다중 제어불가 장애의 위치확인 방법
CN115577577B (zh) 一种计算系统的可靠性评估方法和系统
Boussif et al. Diagnosability analysis of input/output discrete-event systems using model-checking
Zarafshan et al. Notice of Retraction: A novel weighted voting algorithm based on neural networks for fault-tolerant systems
Jayasimha Fault tolerance in a multisensor environment
CN110213087A (zh) 一种基于动态多层耦合网络的复杂系统故障定位方法
Chang et al. Reliability evaluation of multi-state systems subject to imperfect coverage using OBDD
US20190171956A1 (en) Verification system, verification method, and recording medium for storing verification program
Pilch Reliability evaluation of networks with imperfect and repairable links and nodes
CN114594684A (zh) 基于事件触发机制的信息物理系统控制器的控制方法
CN105548815A (zh) 一种基于最大似然译码字的Petri网电网故障检测方法
Guzik et al. Reconfiguring of structure as self diagnosis tool of on-board computers
Zhang et al. A TFPG-Based Method of Fault Modeling and Diagnosis for IMA Systems
Reinhart et al. Verifiable Computing in Avionics for Assuring Computer-Integrity without Replication
Lee et al. Sequential capacity determination of subnetworks in network performance analysis
Yu et al. Safety assessment for safety-critical systems using markov chain modular approach
Gerasimenko et al. Method for functional testing critical control systems
CN111435478A (zh) 一种基于图论的电力cps结构连通脆弱性评估方法
Song et al. A stochastic approach for evaluating the reliability of multi-stated phased-mission systems with imperfect fault coverage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant