CN114205211B

CN114205211B - 使用故障树进行故障诊断的系统和方法

Info

Publication number: CN114205211B
Application number: CN202110993769.8A
Authority: CN
Inventors: 何劼; 陈建伟; 蔡霖; 周晓凌; 王学敏
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2020-08-28
Filing date: 2021-08-27
Publication date: 2023-11-07
Anticipated expiration: 2041-08-27
Also published as: CN114205211A; US20220066853A1; US11416326B2

Abstract

一种用于使用故障树进行故障诊断的计算机实现的方法能够包括：接收故障树，该故障树包含表示顶端事件的节点、表示各个基本事件的多个节点以及将表示各个基本事件的多个节点连接到表示顶端事件的节点的一个或多个逻辑门；获得与所述基本事件相对应的可靠性参数；计算与所述基本事件相对应的故障树重要性测量；计算与所述基本事件相对应的所述顶端事件的故障影响因子，其中，所述顶端事件的所述故障影响因子是对应的可靠性参数与对应的故障树重要性测量的乘积；基于所述顶端事件的所述故障影响因子对所述基本事件进行排名；以及识别对所述顶端事件的最重要贡献者，其中，所述最重要贡献者是具有所述顶端事件的最高故障原因概率的基本事件。

Description

使用故障树进行故障诊断的系统和方法

技术领域

本发明涉及一种使用故障树进行故障诊断的系统和方法。

背景技术

机器或系统的失败、故障或失灵在特定行业中是常见的。系统管理员或维护人员通常需要快速诊断机器或系统故障的原因，以便及时采取纠正措施。此外，出于预防性维护和预测健康管理的目的，识别可能潜在地导致机器或系统故障的“最弱链路”也是重要的。然而，机器或系统越复杂，诊断或识别故障原因就越困难，特别是在时间压力下。

另一个挑战是机器或系统的故障原因可能不保持恒定，这是因为其操作条件会随时间改变。例如，机器或系统的一些组件的可靠性参数会由于数据更新、材料老化、组件修改、维护、人类使用或其他因素而变化。结果，当服务时间流逝时，先前的高可靠性组件可能劣化为低可靠性组件。

另一方面，在适当的维护、翻新或修改之后，劣化部件的可靠性可能上升到更高的水平。因此，仍然需要一种用于智能故障诊断的改进的系统和方法，其简单、快速并能够跟上机器或系统的改变的操作条件。

发明内容

提供本发明内容是为了以简化的形式介绍所选取的构思，其将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

公开的特定实施例涉及一种计算机实现的方法。该方法能够包括：接收故障树，该故障树包括表示顶端事件的节点、表示各个基本事件的多个节点以及将表示各个基本事件的多个节点连接到表示顶端事件的节点的一个或多个逻辑门；获得与所述各个基本事件相对应的可靠性参数；计算各个基本事件相对应的故障树重要性测量；基于所述可靠性参数和所述故障树重要性测量来计算与所述各个基本事件相对应的所述顶端事件的故障影响因子；基于所述顶端事件的所述故障影响因子对所述各个基本事件进行排名；以及识别对顶端事件的最重要贡献者。最重要贡献者是具有顶端事件的最高故障原因概率的基本事件。

在特定实施例中，计算机实现的方法还可以包括更新可靠性参数中的一个或多个。

在特定实施例中，计算机实现的方法还可以包括在更新所述可靠性参数中的一个或多个时，重新计算与各个基本事件相对应的故障树重要性测量，并重新计算顶端事件的故障影响因子。

在特定实施例中，所述计算机实现的方法还可以包括在更新所述可靠性参数中的一个或多个时，对所述基本事件进行重新排名并更新对所述顶端事件的最重要贡献者。

在特定实施例中，更新所述可靠性参数中的一个或多个可以包括使用连接到物联网(IoT)云服务的多个传感器来测量各个基本事件的故障概率，以及通过通信网络将测量的故障概率发送到故障分析和诊断引擎。

在特定实施例中，测量各个基本事件的故障概率可以包括向IoT云服务的IoT设备管理器注册多个传感器。IoT设备管理器可以为多个传感器建立凭证以访问IoT云服务，接收由多个传感器测量的数据流，并定义多个传感器与IoT云服务之间的通信协议。

在特定实施例中，将测量的故障概率发送到故障分析和诊断引擎可以包括由IoT云服务的IoT消息处理单元处理由多个传感器测量的数据流，以计算测量的故障概率。IoT消息处理单元还可以定义IoT云服务与故障分析和诊断引擎之间的通信协议。

在特定实施例中，计算机实现的方法还可以包括生成警报并在图形用户界面上显示对顶端事件的最重要贡献者。

在特定实施例中，故障树重要性测量可以包括与基本事件相对应的风险实现价值。风险实现价值可以被计算为(i)以将基本事件的概率设置为1为条件的顶端事件的概率与(ii)顶端事件的概率的比率。顶端事件的故障影响因子可以是对应的可靠性参数与对应的故障树重要性测量的乘积。

在特定实施例中，计算机实现的方法还可以包括将故障树分解成一个或多个最小割集并计算与一个或多个最小割集相对应的概率。可以基于与一个或多个最小割集相对应的概率来计算顶端事件的概率。

本公开的特定实施例还涉及一种系统，所述系统包括一个或多个处理器以及耦合到所述一个或多个处理器的存储器，所述存储器包含使得所述一个或多个处理器执行方法的指令。所述方法可以包括：接收故障树，该故障树包括表示顶端事件的节点、表示各个基本事件的多个节点以及将表示各个基本事件的多个节点连接到表示顶端事件的节点的一个或多个逻辑门；获得与所述各个基本事件相对应的可靠性参数；计算与各个基本事件相对应的故障树重要性测量；基于所述可靠性参数和所述故障树重要性测量来计算与所述各个基本事件相对应的所述顶端事件的故障影响因子；基于所述顶端事件的所述故障影响因子对所述各个基本事件进行排名；以及识别对顶端事件的最重要贡献者，其中，所述最重要贡献者是具有所述顶端事件的最高故障原因概率的基本事件。

在特定实施例中，所述方法还可以被配置为更新可靠性参数中的一个或多个。

在特定实施例中，所述方法还可以被配置为在更新可靠性参数中的一个或多个时重新计算与各个基本事件相对应的故障树重要性测量，并重新计算顶端事件的故障影响因子。

在特定实施例中，所述方法还可以被配置为在更新可靠性参数中的一个或多个时对各个基本事件进行重新排名并更新顶端事件的最重要贡献者。

在特定实施例中，所述系统还可以包括连接到物联网(IoT)云服务的多个传感器。更新可靠性参数中的一个或多个可以包括使用多个传感器测量各个基本事件的故障概率，并通过通信网络将测量的故障概率发送到故障分析和诊断引擎。

在特定实施例中，测量基本事件的故障概率可以包括向IoT云服务的IoT设备管理器注册多个传感器。IoT设备管理器可以为多个传感器建立凭证以访问IoT云服务，接收由多个传感器测量的数据流，并定义多个传感器与IoT云服务之间的通信协议。

在特定实施例中，所述系统还可以包括图形用户界面，其被配置为生成警报并显示对顶端事件的最重要贡献者。

本公开的特定实施例还涉及一种或多种计算机可读介质，其上编码有使得一个或多个处理器执行方法的计算机可执行指令。所述方法可以包括：接收故障树，该故障树包括表示顶端事件的节点、表示各个基本事件的多个节点以及将表示各个基本事件的多个节点连接到表示顶端事件的节点的一个或多个逻辑门；获得与所述各个基本事件相对应的可靠性参数；计算与各个基本事件相对应的故障树重要性测量；计算与所述各个基本事件相对应的顶端事件的故障影响因子，其中，顶端事件的故障影响因子是对应的可靠性参数与对应的故障树重要性测量的乘积；基于所述顶端事件的所述故障影响因子对所述各个基本事件进行排名；识别对顶端事件的最重要贡献者，其中，所述最重要贡献者是具有所述顶端事件的最高故障原因概率的基本事件；更新所述可靠性参数中的一个或多个；在更新所述可靠性参数中的一个或多个时，重新计算与所述各个基本事件相对应的所述故障树重要性测量，并重新计算所述顶端事件的所述故障影响因子；在更新所述可靠性参数中的一个或多个时，对所述各个基本事件进行重新排名并更新对所述顶端事件的所述最重要贡献者；并且，更新可靠性参数中的一个或多个包括使用连接到物联网(IoT)云服务的多个传感器来测量所述各个基本事件的故障概率，并通过通信网络将测量的故障概率发送到故障分析和诊断引擎。

通过参考附图进行的以下详细描述，前述和其他目的、特征和优点将变得更加明显。

附图说明

图1是包括故障分析和诊断引擎的实现智能故障诊断的示例整体系统的框图。

图2是根据一个实施例的包括图1中描绘的故障分析和诊断引擎的示例系统的框图。

图3是图示基于故障树的故障诊断的示例整体方法的流程图。

图4是图示在图3中描绘的初始故障诊断之后动态地执行故障诊断的示例方法的流程图。

图5是图示故障树的示例实施例的示图，该故障树包括表示顶端事件的节点和表示与各个可靠性参数相关联的各个基本事件的多个节点。

图6是图示图5中所描绘的相同故障树的示图，只是与一些基本事件相关联的可靠性参数被改变。

图7是描绘与系统相关联的故障树和关于系统的组件的相关信息的示例图形用户界面，其中，故障树具有与图5中描绘的故障树相同的分层结构。

图8是描绘基于与基本事件相对应的可靠性参数的初始集合来计算故障影响因子的示例图形用户界面。

图9是描绘在与基本事件相对应的可靠性参数已经被更新之后重新计算的故障影响因子的示例图形用户界面。

图10是描绘系统故障的潜在原因的排名列表的示例图形用户界面。

图11是其中可以实现所描述的实施例的示例计算系统的框图。

图12是能够与本文描述的技术结合使用的示例云计算环境的框图。

具体实施方式

示例1-用于智能故障诊断的整体系统的示例概述

图1是实现本文描述的技术的示例整体系统100的框图。

如图所示，整体系统100能够包括故障分析和诊断引擎110。故障分析和诊断引擎110可以与数据库120通信，其中，数据库120存储与作为故障原因分析和诊断的对象的机器或系统(以下称为“目标系统”)相关的数据。

在一个实施例中，数据库120能够提供目标系统的故障树作为故障分析和诊断引擎110的贝叶斯推断分析器140的输入。如下面更全面地描述的，故障树是分层结构，其包括表示顶端事件的节点、表示各个基本事件的多个节点以及将表示各个基本事件的多个节点连接到表示顶端事件的节点的一个或多个逻辑门。顶端事件通常表示目标系统的故障。基本事件通常表示目标系统的一些组件故障，其中，这样的组件故障是目标系统故障的最低级别的可识别原因。诸如或(OR)或与(AND)门的逻辑门给出顶端事件与基本事件之间的逻辑关系。换句话说，故障树使用布尔逻辑将一系列基本事件连接到顶端事件，并提供图形表示以识别能够导致顶端事件发生的基本事件。

贝叶斯推断分析器140还能够接收与基本事件相对应的可靠性参数150的输入。在一些实施例中，能够从数据库120获得可靠性参数150。在其他实施例中，可靠性参数150能够从其他源被发送，如下所述，诸如物联网(IoT)云服务。在特定实施例中，可靠性参数150能够是目标系统的各个组件的故障概率。

贝叶斯推断分析器140能够实现基于故障树130和可靠性参数150执行贝叶斯推断的方法。如下面更全面地描述的，贝叶斯推断能够通过一系列操作来执行。例如，该方法能够通过IM计算器142计算故障树重要性测量(IM)，通过FIF计算器144计算故障影响因子(FIF)，并通过FIF评估器146对所计算的FIF值进行排名以确定顶端事件的最重要贡献者(MSC)。

在一些实施例中，能够将故障分析和诊断的结果，包括排名的FIF值和确定的顶端事件的MSC，发送到警报系统160，其中，警报系统160能够显示或通知发生的顶端事件(即，目标系统的故障)的最可能的根本原因，或者警告目标系统的用户可能触发顶端事件发生的基本事件(即，组件故障)的潜在发生。

在实践中，本文所示的系统和子系统，诸如系统100以及故障分析和诊断引擎110，能够在复杂性上变化，具有附加功能、更复杂的组件等。例如，贝叶斯推断分析器140内能够存在附加功能。尽管示例示出了单个故障树130，但在实践中，能够基于本文中所描述的相同技术处理与多个目标系统相对应的多个故障树。能够包括附加组件以实现安全性、冗余、负载平衡、报告设计等。

所描述的计算系统能够经由有线或无线网络连接联网，包括互联网。可替代地，系统能够通过内联网连接(例如，在公司环境、政府环境等中)来连接。

系统100和本文描述的任何其他系统能够结合本文描述的任何硬件组件来实现，诸如下面描述的计算系统(例如，处理单元、存储器等)。在本文的任何示例中，软件应用、数据库、故障树、可靠性参数、计算的度量等能够被存储在一个或多个计算机可读存储介质或计算机可读存储设备中。本文描述的技术对于操作系统或硬件的细节能够是通用的，并能够被应用于任何多样的环境中以利用所描述的特征。

示例2-支持动态故障诊断的示例系统

图2是利用IoT技术来支持目标系统220的动态故障诊断的示例系统200的框图。

如图所示，目标系统220能够连接到IoT云平台240，所述IoT云平台240能够进一步连接到IoT应用260。

目标系统220能够包括多个IoT设备222(也称为“IoT传感器”)，其被配置为测量目标系统220的各种组件的性能或其他操作状况，其中，组件的故障或异常状况可能潜在地导致目标系统220的故障。在一些实施例中，目标系统220还能够包括一个或多个IoT边缘设备224。IoT边缘设备224使得由IoT传感器收集的数据能够在本地设备而不是IoT云服务240处被处理。通过将云计算能力引入边缘，IoT边缘计算能够更快地处理数据，防止延迟、安全漏洞和其他问题。

在一些实施例中，IoT边缘设备224能够连接到IoT边缘平台226(例如，微软AzureIoT边缘、SAP边缘服务等)，IoT边缘平台226被部署在边缘处并用作使IoT设备222和IoT边缘设备224在线的网关。在一些实施例中，IoT设备222能够连接到位于IoT云服务242处的IoT云网关244。IoT云网关244和/或IoT边缘平台226能够提供用于网络汇聚和语法协议规范化的适配器。它们还能够充当使IoT设备222在线的虚拟网关，并负责从IoT设备222收集数据并代表其他模块向IoT设备222发送命令。

如图所示，IoT云平台240能够提供IoT云服务242和其他平台服务254。在一个示例实施例中，IoT云服务242能够包括IoT云网关244、IoT设备管理器246、IoT驾驶舱(cockpit)248、IoT信使250和IoT消息处理单元252。

IoT设备管理器246能够提供应用编程接口(API)，所述API提供用于管理IoT设备222的生命周期的功能性。例如，IoT设备管理器246能够注册IoT设备222以使得它们能够连接到IoT云服务242。具体地，IoT设备管理器246能够为IoT设备222建立凭证以给予它们对IoT云服务242的访问。IoT设备管理器246还能够定义用于测量和命令的消息格式。例如，通过IoT网关云管理器244，由IoT设备222或IoT边缘设备224测量和发送的数据流能够由IoT设备管理器246接收。

另外，IoT设备管理器246能够定义IoT设备222与IoT云服务242之间的通信协议。在一个示例实施例中，IoT设备管理器246能够指定IoT设备222的采样率、从IoT设备222发送到IoT云服务242的数据流的频率和/或格式等。例如，从IoT设备222到IoT云服务242的数据传输能够实时地(例如，数据传输频率与采样率相同)、周期性地(例如，每毫秒、每秒、每分钟等)或按需地(例如，数据传输是根据用户的需求触发的)进行。

IoT信使250能够处置从IoT设备222或IoT边缘设备224发送的所有传入数据流和消息。IoT消息处理单元252能够定义应当如何处理所接收的数据流和消息。例如，IoT消息处理单元252能够计算或估计基本事件的故障概率，即，由对应IoT设备222测量的组件故障的概率。如本文所述，基本事件的故障概率也能够被称为上述的可靠性参数150。

IoT消息处理单元252还能够定义IoT云服务242与驻留在IoT应用260中的故障分析和诊断引擎266之间的通信协议。例如，IoT消息处理单元252能够指定所计算的基本事件的故障概率应该被发送到IoT应用260的频率。将基本事件的故障概率传输到IoT应用260能够调用故障分析和诊断引擎266以基于基本事件的最新故障概率来重新计算并动态地更新其故障诊断结果。

在一个示例实施例中，IoT消息处理单元252能够控制IoT云平台240与IoT应用260之间的数据传输频率。例如，基本事件的故障概率能够实时地(例如，数据传输与来自IoT设备的传入数据流同步地发生)、周期性地(例如，每毫秒、每秒、每分钟等)或按需地(例如，数据传输是根据用户的需求触发的)从IoT云平台240发送到IoT应用260。

此外，IoT消息处理单元252能够与平台服务254交互，平台服务254支持实时流处理256和存储器中数据库258。例如，计算的基本事件的故障概率和一些相关设备消息能够存储在数据库258中或转发以流式传输到HTTP端点。描绘与目标系统220相关联的顶端事件与基本事件之间的逻辑关系的故障树也能够存储在数据库258中。

IoT驾驶舱248能够用作用户与IoT云服务242交互的接口，并提供对用户管理、设备管理、平台管理、资源可见性分配和数据可视化的访问。例如，IoT驾驶舱248能够向IoT设备管理器246提供用户接口，从而允许用户注册新的IoT设备222，以定义它们能够发送和接收的消息的模式(例如，设备类型和消息类型)等。

IoT应用260从IoT云平台240接收经处理的数据，并调用本文描述的故障诊断方法。

在所描绘的示例实施例中，IoT应用260包括用户界面(UI)呈现模块262、故障树管理模块264以及故障分析和诊断引擎266。故障树管理模块264能够从数据库258检索与目标系统220相关联的故障树，并在必要时更新与目标系统的组件相关联的可靠性参数(例如，基本事件的故障概率)。能够具有与图1中描绘的故障分析和诊断引擎110相同的结构的故障分析和诊断引擎266嵌入软件代码，当该软件代码被执行时能够基于故障树执行贝叶斯推论分析，以识别哪个基本事件是对顶端事件的最重要贡献者。故障分析和诊断模块266的输出能够被发送到UI呈现模块262并显示在UI呈现模块262上。在一些实施例中，UI呈现模块262能够用作或连接到类似于上述160的警报系统，即，通知发生的顶端事件的最可能原因，或者生成关于可能触发顶端事件发生的基本事件的潜在发生的警报，使得能够及时采取纠正或预防措施。

本文描述的系统200允许使用各种各样的IoT服务和协议来管理目标系统220的生命周期。将IoT设备222连接到IoT云平台提供了传感器数据的可扩展摄取以及IoT设备管理和连接性。能够处理和聚合这些数据，以基于目标系统220的各种组件的操作状态或风险概况的动态变化来动态地评估目标系统220的故障风险。

示例3-使用故障树进行故障诊断的示例整体方法

图3是图示由图1的系统使用故障树执行故障诊断的示例整体方法300的流程图。

在310处，故障分析和诊断引擎100能够接收故障树，该故障树包括表示顶端事件的节点、表示各个基本事件的多个节点以及将表示各个基本事件的多个节点连接到表示顶端事件的节点的一个或多个逻辑门。在320处，故障分析和诊断引擎100能够接收与基本事件相对应的可靠性参数150。如上所述，可靠性参数150能够从数据库258获得，或者从诸如IoT云服务242的其他源发送。在330处，IM计算器142能够计算与基本事件相对应的故障树重要性测量。在340处，FIF计算器144能够基于可靠性参数和故障树重要性测量来计算与基本事件相对应的顶端事件的故障影响因子。在350处，FIF评估器146能够基于顶端事件的故障影响因子对基本事件进行排名。然后在360处，HIF评估器146能够识别对顶端事件的最重要贡献者(MSC)。

在410处，能够更新可靠性参数150中的一个或多个。如上所述，取决于IoT云平台240与IoT应用260之间的传输协议，能够实时地、周期性地或按需地更新可靠性参数150。在420处，IM计算器142能够在更新一个或多个可靠性参数时重新计算与基本事件相对应的故障树重要性测量。在430处，FIF计算器144能够在更新可靠性参数中的一个或多个时重新计算顶端事件的故障影响因子。在440处，FIF评估器146能够对基本事件进行重新排名。然后在450处，FIF评估器146能够在更新可靠性参数中的一个或多个时更新对顶端事件的MSC。

方法300、400以及本文描述的任何其他方法能够由存储在一个或多个计算机可读介质(例如，贮存器或其他有形介质)中或存储在一个或多个计算机可读存储设备中的计算机可执行指令(例如，使得计算系统执行该方法)来执行。这样的方法能够在软件、固件、硬件或其组合中执行。这样的方法能够至少部分地由计算系统(例如，一个或多个计算设备)执行。

图示的动作能够从可替代的角度进行描述同时仍然实现这些技术。例如，“接收”也能够从不同的角度被描述为“发送”。

示例4-示例故障树

图5示出了与能够被分析以用于故障诊断的目标系统相对应的示例故障树500。

通常，故障树是自上而下的逻辑图或分层结构，其显示顶端事件(例如，目标系统故障)与其可能原因——即，基本事件(例如，组件故障)之间的相互关系。如图5所示，故障树500包括表示顶端事件的节点510、表示各个基本事件的多个节点520(在该示例中示出了10个基本事件:B1、B2、...、B10)以及将表示各个基本事件的多个节点520连接到表示顶端事件的节点510的一个或多个逻辑门530A-F(统称为530)。例如，表示基本事件B1和B2的节点通过或门530A连接，表示基本事件B3、B4和B5的节点通过另一个或门530B连接，并且，或门530A的输出和或门530B的输出通过与门530C连接。逻辑门530的输出能够被称为各个中间事件，除了其输出是顶端事件510的或门530F之外。虽然在所描绘示例中仅展示与门和或门，但是其他逻辑门(例如，异或门、优先与门、禁止门等)也可以被包括在故障树中。

另外，图5中所示的每个基本事件与故障概率(或可靠性参数)相关联。例如，与B1-B10相关联的故障概率分别为3.5E-2、6.7E-3、8.0E-3、1.2E-2、6.4E-3、2.6E-4、9.4E-3、7.3E-3、3.1E-2和8.6E-3。

示例5-顶端事件概率的示例量化

能够使用布尔代数来计算故障树中的任何中间事件和顶端事件的概率。例如，与或门530A的输出相对应的中间事件的概率能够被计算为P(B1∪B2)＝P(B1)+P(B2)-P(B1∩B2)。由于基本事件的故障概率往往很小，因此P(B1∩B2)通常成为非常小的误差项，并且，可以通过使用B1和B2是互斥事件的假设，即，P(B1∩B2)≈0，来近似或门530A的输出。因此，P(B1∪B2)≈P(B1)+P(B2)。能够类似地计算与或门530B的输出相对应的中间事件的概率，即P(B3∪B4∪B5)。接下来，假设两个中间事件(即，或门530A的输出和与门530C的输出)是独立的事件，则与与门530C的输出相对应的中间事件的概率可以被计算为P((B1∪B2)∩(B3∪B4∪B5))＝P(B1∪B2)·P(B3∪B4∪B5)。

如本文所述，能够基于最小割集分析来计算顶端事件的概率。具体地，故障树500能够被分解为一个或多个最小割集。割集是能够导致顶端事件的基本事件的组合。如果没有事件能够在不导致顶端事件的情况下从割集中被移除，则这样的割集被称为最小割集。最小割集能够揭示系统的结构脆弱性。通常，最小割集越长，顶端事件对于基本事件的组合越不脆弱。另一方面，较大数量的割集可以指示系统的较高脆弱性。已经开发了各种方法来基于故障树确定最小割集，并且这些方法能够与本文描述的技术结合使用。在所描绘的示例中，故障树500能够被分解为10个最小割集：{B1,B3}、{B1,B4}、{B1,B5}、{B2,B3}、{B2,B4}、{B2,B5}、{B6}、{B7,B8}、{B7,B9}和{B7,B10}。

如果出现最小割集中的一个或多个，则发生顶端事件。如果所有最小切割彼此独立，则能够基于最小割级的概率来计算顶端事件的概率(Q)。在数学上，顶端事件概率Q能够通过以下计算：

其中，N是最小割集的数量，是第j个最小割集(MCS_j)的故障概率，并通过下式计算：

其中，p_i是最小割集MCS_j中的第i个基本事件的概率。在一些实施例中，当最小割集的数量非常大时，可能需要截止过程来截断与极低概率相关联的一些最小割集，并且为了降低计算的复杂性，可以应用一阶量化近似。已经开发了各种方法来计算具有或不具有最小割集截断的顶端事件概率，并且这些方法可以与本文描述的技术结合使用。

示例6-示例重要性测量

作为贝叶斯推断的初步步骤，能够量化故障树的每个基本事件的重要性。有几种不同的重要性测量，其能够从不同的角度评估基本事件的重要性。

例如，风险实现价值(RAW)能够定义为：

这里，符号Q_(i＝1)代表在第i个基本事件的故障概率被设置为1的条件下的顶端事件的概率，即，假设第i个基本事件肯定会发生。

在另一示例中，风险降低价值(RRW)能够被定义为：

这里，符号Q_(i＝0)代表在第i个基本事件的故障概率被设置为0的条件下的顶端事件的概率，即，假设第i个基本事件肯定不会发生。

在又一示例中，Fussell-Vesely(FV)重要性测量能够被定义为：

这里，符号Q_(i∈MCS)代表在最小割集(MCS)包括第i个基本事件的条件下顶端事件的概率。

如本领域已知或将要研发的其他重要性测量，诸如Birnhaum可靠性测量、Lambert临界重要性测量、Barlow-Proschan重要性测量、蒙特卡罗方差重要性测量等，也能够与本文描述的技术结合使用。

示例7-贝叶斯推断的示例方法

下面描述基于风险实现价值(RAW)的贝叶斯推断的示例方法。

顶端事件的概率与基本事件的概率之间的关系能够通过贝叶斯公式描述：

代入RAW的定义，上述公式能够重写为：

这里，B_i将故障树中的第i个基本事件符号化，其故障概率P(B_i)是已知的，即，P(B_i)能够是从IoT云平台发送到故障分析和诊断引擎的测量或估计的可靠性参数(参见例如图1和图2)。如上所述，P(B_i)也能够被称为与基本事件B_i相对应的可靠性参数。

概率P(Q|B_i)是在第i个基本事件发生的条件下的顶端事件概率。它能够被计算为Q_(i＝1)，即，通过将第i个基本事件的故障概率设置为1。能够基于上述最小割集分析来计算由每个基本事件近似贡献的顶端事件概率Q，如由所有P(Q|B_i)的总和(“∑”)所表示的。

概率P(B_i|Q)是在顶端事件发生的条件下B_i的条件概率，并在下面的图7-图8中所示的图形用户界面中也被称为“故障原因概率”。上述公式规定，假设顶端事件发生，其原因是B_i的概率等于B_i贡献与顶端事件的总概率的比例。

如本文所述，如下面的表I-II和图7-图8中所例示的，P(B_i|Q)(或“故障原因概率”)是示例故障影响因子(FIF)，其能够被排名和评估以确定对顶端事件的最重要贡献者(MSC)。通常，基本事件的FIF是与基本事件相对应的可靠性参数和故障树重要性测量两者的函数。在该特定示例中，如上面的公式所指示的，P(B_i|Q)是各个基本事件的故障概率P(B_i)与其对应的重要性测量RAW_i的乘积。

技术上，贝叶斯公式基于所有基本事件互斥的理想假设。在故障树分析中，通常假设基本事件彼此独立，并且能够应用一阶近似。在现实世界的应用中，基本事件很少是独立的或相互排斥的。然而，或者简化计算，特别是在工程实践中，如果一些复杂的情况是微不足道的并且能够应用一些近似假设，则能够将所述复杂的情况排除在考虑之外。例如，能够认为多于一个基本事件的组合的概率太微不足道而不值得考虑(也称为二阶近似和三阶近似)，特别是如果它们的故障概率非常小。

示例8-确定MSC到顶端事件的示例方法

在计算与每个基本事件相对应的故障影响因子(FIF)之后，能够评估这样计算的故障影响因子(例如，通过FIF评估器146)以确定对顶端事件的最重要贡献者(MSC)。

具体地，使用上述示例，在计算与每个基本事件相对应的概率P(B_i|Q)之后，所有基本事件能够根据它们分别计算的P(B_i|Q)——即，导致顶端事件发生的推断概率——来排名。

在一个示例实施例中，与最高P(B_i|Q)相对应的基本事件被识别为顶端事件的最可能故障原因或MSC。

在另一实施例中，与排名列表上的前K个位置相对应的预定义数量(例如，K)的基本事件被识别为顶端事件的最可能故障原因。

作为示例，下面的表I列出了与基本事件B1-B10相对应的可靠性参数(P(B_i))、计算的重要性测量(RAW_i)和排名的FIF值(即，P(B_i)和RAW_i的乘积)。如图所示，与基本事件B1相对应的FIF值在排名列表的顶端。因此，在该示例中，B1被认为是对顶端事件的MSC。

表I

	FIF_i	P(B_i)	RAW_i
				B1	5.28E-01	3.50E-02	1.51E+01
B4	2.84E-01	1.20E-02	2.37E+01
				B7	2.51E-01	9.40E-03	2.68E+01
B3	1.89E-01	8.00E-03	2.37E+01
				B9	1.87E-01	3.10E-02	6.03E+00
B5	1.51E-01	6.40E-03	2.37E+01
				B6	1.46E-01	2.60E-04	5.62E+02
B2	1.01E-01	6.70E-03	1.51E+01
				B10	5.18E-02	8.60E-03	6.03E+00
B8	4.40E-02	7.30E-03	6.03E+00

示例9-故障影响因子的示例变型

虽然条件概率P(B_i|Q)(即，P(B_i)与RAW_i的乘积)被选择作为示例FIF，但是能够使用其他度量来定义FIF。

在一个示例实施例中，FIF能够被定义为P(B_i)和RAW_i的通用函数，条件是P(B_i)和RAW_i都与FIF正相关。例如，FIF能够被定义为：

其中m和n是正数(整数或非整数值)，其给予RAW_i和P(B_i)各自的权重。在另一示例中，FIF能够被定义为：

FIF_i＝w₁·RAW_i+w₂·P(B_i)

其中，w₁和w₂是RAW_i和P(B_i)各自的加权因子。

在另一示例实施例中，FIF能够被定义为P(B_i)和除RAW之外的重要性测量的通用函数。例如，类似于上述通用函数(例如，通过用RRW_i替换RAW_i)，FIF能够被定义为P(B_i)与RRW_i的加权乘积(或加权和)。因此，P(B_i)或RRW_i的增加能够导致FIF_i的增加。在另一示例中，类似于上述通用函数(例如，通过用FV_i替换RAW_i)，FIF能够被定义为P(B_i)与FV_i的加权乘积(或加权和)。因此，较高的P(B_i)或FV_i能够导致较高的FIF_i。换句话说，FIF能够被定义为P(B_i)和重要性测量两者的通用函数，只要增加P(B_i)或重要性测量就能够导致FIF的相应增加。另一方面，如果所选择的重要性测量(表示为IM)与RAW逆相关，则其相反形式(例如，1/IM或1-IM)能够用于在上述通用函数中替换RAW。

类似地，在计算与每个基本事件相对应的各个FIF之后，能够对这样计算的FIF值进行排名，并能够将与最高FIF相对应的基本事件确定为对顶端事件的MSC。

示例10-故障树和动态故障诊断的示例更新

如上面结合图2所述，目标系统220的故障原因可能不保持恒定，这是因为其组件的操作状态或风险概况会随时间改变。通过将故障分析和诊断引擎266与IoT云平台240连接，这些组件的可靠性参数随时间的改变能够由IoT设备222测量、通过IoT信使250路由并由IoT消息处理单元252处理并馈送到目标系统220的故障原因。结果，能够实现目标系统的动态风险评估和故障诊断。

作为示例，图6图示了故障树600，其包括表示顶端事件的节点610、表示各个基本事件B1-B10的多个节点620以及将多个节点620连接到节点610的多个逻辑门630。显然，故障树600具有与图5中描绘的故障树500相同的分层结构。另一方面，虽然与故障树600中的B2-B7和B9-B10相关联的故障概率保持与故障树500中所示的故障概率相同，但是与B1相关联的故障概率已经从3.5E-2降低到1.5E-2(例如，由于对应组件的积极维护)，并且与B8相关联的故障概率已经从7.3E-3增加到9.7E03(例如，由于对应组件的劣化)。如上所述，取决于通信协议，能够实时地(例如，一旦IoT设备检测到对应组件的操作状况的改变)、周期性地(例如，基于预定义的传输间隔)或按需地(例如，基于由用户引发的触发)执行可靠性参数的更新。

如关于图4描述的方法，在更新与B1和B8相关联的可靠性参数时，如下面的表II所示，能够重新计算与各个基本事件相对应的重要性测量(例如，RAW)和故障影响因子(FIF)。然后，能够对所计算的FIF值进行重新排名，以确定更新的对顶端事件的最重要贡献者(MSC)。如图所示，在更新与B1和B8相对应的可靠性参数之后，B1-B10的顺序已经改变。基本事件B7现在位于列表的顶端，并被识别为顶端事件的最可能故障原因。换句话说，尽管B7的可靠性参数保持不变，但是每个基本事件的贡献的比例被重新混洗。结果，B7能够被自动更新为对顶端事件的MSC。

表II

	FIF_i	P(B_i)	RAW_i
				B7	3.62E-01	9.40E-03	3.86E+01
B1	3.14E-01	1.50E-02	2.10E+01
				B9	2.47E-01	3.10E-02	7.97E+00
B4	2.09E-01	1.20E-02	1.74E+01
				B6	2.03E-01	2.60E-04	7.80E+02
B2	1.40E-01	6.70E-03	2.10E+01
				B3	1.39E-01	8.00E-03	1.74E+01
B5	1.11E-01	6.40E-03	1.74E+01
				B8	7.73E-02	9.70E-03	7.97E+00
B10	6.85E-02	8.60E-03	7.97E+00

示例11-多个故障模式的示例故障诊断

本文描述的技术还能够被用于具有多个故障模式的目标系统的故障诊断。

在一些实施例中，给定的基本事件能够与多于一个故障模式相关联，即，组件故障能够导致目标系统以不同的方式发生故障(即，导致不同的顶端事件)。在这种情况下，每个故障模式能够被建模为包括基本事件的各个故障树。换句话说，如果目标系统具有多个故障模式，则能够对具有与不同故障模式相对应的不同顶端事件的多个故障树进行建模。可替代地，能够认为多个故障模式(和对应的故障树)与各自的目标系统相对应。

通常，如果机器具有多于一个故障模式，则应将主导故障模式适当地建模到各个故障树中。在这种情况下，由于特定条件，可能发生任何故障模式，甚至竞争故障模式。如果检测到一个特定故障模式，则能够采用上述故障诊断方法来识别该故障模式下最可能的原因。另一方面，对于正在进行的故障风险评估，如果更新了一个基本事件的可靠性参数(例如，基于IoT传感器测量)，则能够对所有基本事件触发故障诊断。因此，能够动态地评估与不同故障模式相对应的故障风险。

示例12-故障诊断的示例图形用户界面

图7-图10示出了能够结合故障分析和诊断引擎266在用户界面(UI)呈现模块262处实现的示例图形用户界面。

具体地，图7示出了示例图形用户界面700，其包括菜单栏710、浏览器面板720、故障树显示窗口730和组件显示窗口750。在所描绘的示例中，菜单栏710显示实现本文描述的故障诊断方法的IoT应用260的菜单项。例如，对“导航”菜单项的选择能够使得浏览器面板720显示目标系统的修复日志和包含在各个修复日志中的相关事件，并且每个修复日志具有与目标系统相关联的故障树。如图所示，在浏览器面板720中列出了两个修复日志“B07-AE03d”和“B01-AE031”以及与第一修复日志相关联的事件。以结构化格式编写的修复日志能够由软件平台直接导入。因此，能够从修复日志中检索维护活动的信息(即，维护记录)。基于维护记录，能够自动计算和更新可靠性参数。

故障树显示窗口730显示与所选择的修复日志(在该示例中为“B07-AE03d”)相对应的故障树740。出于说明的目的，这里示出的故障树740具有与图5中示出的故障树500相同的结构。两个控制元件736和738能够由用户选择以在“故障树分析”视图(如图所示)与“故障原因概率”视图(如下所述)之间切换。在“故障树分析”视图中，用户能够点击“运行分析”按钮732以激活上述故障诊断方法。分析结果能够保存在数据库中，并通过点击“历史”按钮来检索。能够在组件显示窗口750中示出目标系统的所选择的基本事件的信息，例如，对应组件的图片、组件的可靠性参数等(在所描绘的示例中，所选组件是基本事件B01“交换机故障1”)。

图8示出了示例图形用户界面800，其示出了“故障原因概率”视图，其中，故障树显示窗口730被“故障原因概率”窗口830替换，其示出了与表I中列出的故障诊断的相同结果(计算的FIF在“故障原因概率”列下示出)。如图所示，基本事件B01(“交换机故障1”)在“故障原因概率”列表(即，FIF)上排名最高，并被确定为对顶端事件的MSC。

图9示出了示例图形用户界面900，其示出了在与两个基本事件相对应的可靠性参数被改变并且“故障原因概率”(即，FIF)被更新之后的“故障原因概率”视图，显示了与表II中列出的相同的故障诊断。如图所示，基本事件B07(“自动恢复系统故障”)现在在“故障原因概率”列表(即，FIF)上排名最高，并被确定为对顶端事件的MSC。

图10示出了在更新图9中描绘的故障诊断的结果之后的示例“故障树分析”视图。如图所示，在故障树上突出显示基本事件B07，创建了对应部件故障(即，“自动恢复系统故障”)是顶端事件的最可能原因的警报。

示例13-示例优点

经由本文描述的技术能够实现若干优点。例如，通过使用故障树应用贝叶斯推断，本文描述的技术在计算故障影响因子时考虑了组件的可靠性参数和故障树重要性测量两者，故障影响因子的排名能够揭示对目标系统的顶端事件的最重要贡献者。因此，本文描述的技术提供了一种用于诊断目标系统的故障原因的简单、快速和准确的手段。

此外，通过合并IoT云平台以将故障分析和诊断引擎与各种IoT传感器链接，本文描述的技术能够响应于其组件的操作条件的改变来动态地评估目标系统的风险概况，所述各种IoT传感器测量目标系统的组件的操作条件。目标系统的这种运行中智能监测允许系统的用户主动管理目标系统的风险，例如，通过组件的预防性维护来减轻关键系统故障的风险。

示例14-示例计算系统

图11描绘了其中能够实现所描述的创新的合适的计算系统1100的示例。由于创新能够在多种计算系统中实现，所以计算系统1100不旨在对本公开的使用或功能范围提出任何限制。

参考图11，计算系统1100包括一个或多个处理单元1110、1115和存储器1120、1125。在图11中，该基本配置1130被包括在虚线内。处理单元1110、1115执行计算机可执行指令，诸如用于实现本文示例中描述的特征。处理单元能够是通用中央处理单元(CPU)、特殊应用集成电路(ASIC)中的处理器或任何其他类型的处理器。在多处理系统中，多个处理单元执行计算机可执行指令以增加处理能力。例如，图11示出了中央处理单元1110以及图形处理单元或协处理单元1115。有形存储器1120、1125能够是可由处理单元1110、1115访问的易失性存储器(例如，寄存器、高速缓存、RAM)、非易失性存储器(例如，ROM、EEPROM、闪存等)或两者的一些组合。存储器1120、1125以适合于由处理单元1110、1115执行的计算机可执行指令的形式存储软件1180，所述软件1180实现本文描述的一个或多个创新。

计算系统1100能够具有附加特征。例如，计算系统1100包括贮存器1140、一个或多个输入设备1150、一个或多个输出设备1160以及一个或多个通信连接1170，其包括用于与用户交互的输入设备、输出设备和通信连接。诸如总线、控制器或网络的互连机制(未示出)将计算系统1100的组件互连。通常，操作系统软件(未示出)为在计算系统1100中执行的其他软件提供操作环境，并协调计算系统1100的组件的活动。

有形贮存器1140能够是可移除的或不可移除的，并包括磁盘、磁带或磁带盒、CD-ROM、DVD或能够被用于以非暂时性方式存储信息并能够在计算系统1100内访问的任何其他介质。贮存器1140存储用于实现本文描述的一个或多个创新的软件的指令。

输入设备1150能够是诸如键盘、鼠标、笔或轨迹球、语音输入设备、扫描设备、触摸设备(例如，触摸板、显示器等)或向计算系统1100提供输入的其他设备的输入设备。输出设备1160能够是显示器、打印机、扬声器、CD刻录机或提供来自计算系统1100的输出的其他设备。

通信连接1170使得能够通过通信介质与另一计算实体进行通信。通信介质传送信息，诸如计算机可执行指令、音频或视频输入或输出或调制数据信号中的其他数据。调制数据信号是以将信息编码在信号中的方式设置或改变其一个或多个特性的信号。作为示例而非限制，通信介质能够使用电、光、RF或其他载体。

能够在诸如包括在程序模块中的计算机可执行指令的上下文中描述创新，其中，所述计算机可执行指令在目标真实或虚拟处理器上的计算系统中执行(例如，其最终在一个或多个硬件处理器上执行)。通常，程序模块或组件包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。在各种实施例中，能够根据需要在程序模块之间组合或拆分程序模块的功能。用于程序模块的计算机可执行指令能够在本地或分布式计算系统内执行。

出于呈现的目的，具体的描述使用了诸如“确定”和“使用”的术语来描述计算系统中的计算机操作。这些术语是对由计算机执行的操作的高级描述，并且不应与由人类执行的动作混淆。与这些术语相对应的实际计算机操作根据实现而变化。

示例15-计算机可读介质

本文中的任何计算机可读介质能够是非暂时性的(例如，诸如DRAM或SRAM的易失性存储器、诸如磁贮存器、光贮存器等的非易失性存储器)和/或有形的。本文描述的任何存储动作能够通过存储在一个或多个计算机可读介质(例如，计算机可读存储介质或其他有形介质)中来实现。描述为存储的任何事物(例如，在实现期间创建和使用的数据)能够存储在一个或多个计算机可读介质(例如，计算机可读存储介质或其他有形介质)中。计算机可读介质能够被限制于不由信号组成的实施方式。

本文描述的任何方法能够由一个或多个计算机可读介质(例如，计算机可读存储介质或其他有形介质)或一个或多个计算机可读存储设备(例如，存储器、磁贮存器、光贮存器等)中的(例如，存储在其上、编码在其上等)计算机可执行指令来实现。这样的指令能够使得计算设备执行该方法。本文描述的技术能够以各种编程语言来实现。

示例16-示例云计算环境

图12描绘了其中能够实现所描述的技术的示例云计算环境1200，包括例如上面公开的系统和本文的其他系统。云计算环境1200包括云计算服务1210。云计算服务1210能够包括各种类型的云计算资源，诸如计算机服务器、数据存储库、联网资源等。云计算服务1210能够位于中央(例如，由企业或组织的数据中心提供)或分布式的(例如，由位于诸如不同的数据中心的不同位置和/或位于不同的城市或国家的各种计算资源提供)。

云计算服务1210由各种类型的计算设备(例如，客户端计算设备)利用，诸如计算设备1220、1222和1223。例如，计算设备(例如，1220、1222和1224)能够是计算机(例如，台式或膝上型计算机)、移动设备(例如，平板计算机或智能电话)或其他类型的计算设备。例如，计算设备(例如，1220、1222和1224)能够利用云计算服务1210来执行计算操作(例如，数据处理、数据存储等)。

在实践中，能够支持基于云、基于本地或混合的场景。

示例17-示例实施方式

尽管为了方便呈现，以特定的顺序次序描述了所公开的方法中的一些方法的操作，但是这种描述方式包括重新排列，除非本文阐述的特定语言需要特定的排名。例如，顺序描述的操作在一些情况下能够重新排列或同时执行。

示例18-示例实施例

能够实现以下实施例中的任何一个。

第1项、一种计算机实现的方法，包括：

接收故障树，所述故障树包括表示顶端事件的节点、表示各个基本事件的多个节点以及将表示所述各个基本事件的所述多个节点连接到表示所述顶端事件的所述节点的一个或多个逻辑门；获得与所述各个基本事件相对应的可靠性参数；计算与各个基本事件相对应的故障树重要性测量；基于所述可靠性参数和所述故障树重要性测量来计算与所述各个基本事件相对应的所述顶端事件的故障影响因子；基于所述顶端事件的所述故障影响因子对所述各个基本事件进行排名；以及识别对所述顶端事件的最重要贡献者，其中，所述最重要贡献者是具有所述顶端事件的最高故障原因概率的基本事件。

第2项、根据第1项所述的计算机实现的方法，还包括：更新所述可靠性参数中的一个或多个。

第3项、根据第2项所述的计算机实现的方法，还包括：在更新所述可靠性参数中的一个或多个时，重新计算与各个基本事件相对应的故障树重要性测量，并重新计算顶端事件的故障影响因子。

第4项、根据第3项所述的计算机实现的方法，还包括：在更新所述可靠性参数中的一个或多个时，对所述基本事件进行重新排名并更新对所述顶端事件的所述最重要贡献者。

第5项、根据第2-4项中任一项所述的计算机实现的方法，其中，更新所述可靠性参数中的一个或多个包括：使用连接到物联网(IoT)云服务的多个传感器来测量各个基本事件的故障概率，以及通过通信网络将测量的故障概率发送到故障分析和诊断引擎。

第6项、根据第5项所述的计算机实现的方法，其中，测量所述各个基本事件的故障概率包括：向IoT云服务的IoT设备管理器注册多个传感器，其中，所述IoT设备管理器为所述多个传感器建立凭证以访问所述IoT云服务，接收由所述多个传感器测量的数据流，并定义所述多个传感器与所述IoT云服务之间的通信协议。

第7项、根据第6项所述的计算机实现的方法，其中，将测量的故障概率发送到所述故障分析和诊断引擎包括：由所述IoT云服务的IoT消息处理单元处理由所述多个传感器测量的数据流，以计算测量的故障概率，其中，所述IoT消息处理单元还定义所述IoT云服务与所述故障分析和诊断引擎之间的通信协议。

第8项、根据第1-7项中任一项所述的计算机实现的方法，还包括：生成警报并在图形用户界面上显示对顶端事件的最重要贡献者。

第9项、根据第1-8项中任一项所述的计算机实现的方法，其中，所述故障树重要性测量包括与基本事件相对应的风险实现价值，所述风险实现价值被计算为(i)以将所述基本事件的概率设置为1为条件的所述顶端事件的概率与(ii)所述顶端事件的概率的比率；并且其中，顶端事件的故障影响因子是对应的可靠性参数与对应的故障树重要性测量的乘积。

第10项、根据第9项所述的计算机实现的方法，还包括：将所述故障树分解成一个或多个最小割集并计算与所述一个或多个最小割集相对应的概率，其中，基于与所述一个或多个最小割集相对应的概率来计算所述顶端事件的概率。

第11项、一种系统，包括：

一个或多个处理器；以及耦合到所述一个或多个处理器的存储器，所述存储器包括使得所述一个或多个处理器执行方法的指令，所述方法包括：

第12项、根据第11项所述的系统，其中，所述方法还被配置为更新所述可靠性参数中的一个或多个。

第13项、根据第12项所述的系统，其中，所述方法还被配置为在更新所述可靠性参数中的一个或多个时重新计算与所述各个基本事件相对应的故障树重要性测量，并重新计算所述顶端事件的故障影响因子。

第14项、根据第13项所述的系统，其中，所述方法还被配置为在更新所述可靠性参数中的一个或多个时对所述各个基本事件进行重新排名并更新所述顶端事件的所述最重要贡献者。

第15项、根据第12-14项中任一项所述的系统，还包括连接到物联网(IoT)云服务的多个传感器，其中，更新所述可靠性参数中的一个或多个包括使用多个传感器测量各个基本事件的故障概率，并通过通信网络将测量的故障概率发送到故障分析和诊断引擎。

第16项、根据第15项所述的系统，其中，测量所述基本事件的故障概率包括：向IoT云服务的IoT设备管理器注册多个传感器，其中，所述IoT设备管理器为所述多个传感器建立凭证以访问所述IoT云服务，接收由所述多个传感器测量的数据流，并定义所述多个传感器与所述IoT云服务之间的通信协议。

第17项、根据第16项所述的系统，其中，将测量的故障概率发送到所述故障分析和诊断引擎包括：由所述IoT云服务的IoT消息处理单元处理由所述多个传感器测量的数据流，以计算测量的故障概率，其中，所述IoT消息处理单元还定义所述IoT云服务与所述故障分析和诊断引擎之间的通信协议。

第18项、根据第11-17项中任一项所述的系统，还包括图形用户界面，其被配置为生成警报并显示对所述顶端事件的最重要贡献者。

第19项、根据第11-18项中任一项所述的系统，其中，故障树重要性测量包括与基本事件相对应的风险实现价值，风险实现价值被计算为(i)以将基本事件的概率设置为1为条件的顶端事件的概率与(ii)顶端事件的概率的比率；并且其中，顶端事件的故障影响因子是对应的可靠性参数与对应的故障树重要性测量的乘积。

第20项、一种或多种计算机可读介质，其上编码有促使一个或多个处理器执行方法的计算机可执行指令，所述方法包括：

接收故障树，所述故障树包括表示顶端事件的节点、表示各个基本事件的多个节点以及将表示所述各个基本事件的所述多个节点连接到表示所述顶端事件的所述节点的一个或多个逻辑门；获得与所述各个基本事件相对应的可靠性参数；计算与各个基本事件相对应的故障树重要性测量；计算与所述各个基本事件相对应的顶端事件的故障影响因子，其中，顶端事件的故障影响因子是对应的可靠性参数与对应的故障树重要性测量的乘积；基于所述顶端事件的所述故障影响因子对所述各个基本事件进行排名；识别对所述顶端事件的最重要贡献者，其中，所述最重要贡献者是具有所述顶端事件的最高故障原因概率的基本事件；更新所述可靠性参数中的一个或多个；在更新所述可靠性参数中的一个或多个时，重新计算与所述各个基本事件相对应的所述故障树重要性测量，并重新计算所述顶端事件的所述故障影响因子；在更新所述可靠性参数中的一个或多个时，对所述各个基本事件进行重新排名并更新对所述顶端事件的所述最重要贡献者；以及更新可靠性参数中的一个或多个包括使用连接到物联网(IoT)云服务的多个传感器来测量所述各个基本事件的故障概率，并通过通信网络将测量的故障概率发送到故障分析和诊断引擎。

示例19-示例替代方案

来自任何示例的技术能够与任何一个或多个其他示例中描述的技术组合。鉴于能够应用本公开技术的原理的许多可能的实施例，应当认识到，所示实施例是所公开技术的示例，并且不应被视为对所公开技术的范围的限制。相反，所公开技术的范围包括所附权利要求的范围和精神所涵盖的内容。

Claims

1.一种计算机实现的方法，包括：

接收故障树，所述故障树包含表示顶端事件的节点、表示各个基本事件的多个节点以及将表示所述各个基本事件的所述多个节点连接到表示所述顶端事件的所述节点的一个或多个逻辑门；

获得与所述各个基本事件相对应的可靠性参数；

计算与各个基本事件相对应的故障树重要性测量，其中，所述故障树重要性测量包括与基本事件相对应的风险实现价值，所述风险实现价值被计算为(i)以将所述基本事件的概率设置为1为条件的所述顶端事件的概率与(ii)所述顶端事件的概率的比率；

计算与所述各个基本事件相对应的所述顶端事件的故障影响因子，其中，所述顶端事件的所述故障影响因子包括基于所述可靠性参数与所述故障树重要性测量的相应乘积确定的各个基本事件的条件概率；

基于所述顶端事件的所述故障影响因子对所述各个基本事件进行排名；以及

识别对所述顶端事件的最重要贡献者，其中，所述最重要贡献者是具有所述顶端事件的最高故障影响因子的基本事件。

2.根据权利要求1所述的计算机实现的方法，还包括：更新所述可靠性参数中的一个或多个。

3.根据权利要求2所述的计算机实现的方法，还包括：在更新所述可靠性参数中的一个或多个时，重新计算与所述各个基本事件相对应的所述故障树重要性测量，并重新计算所述顶端事件的所述故障影响因子。

4.根据权利要求3所述的计算机实现的方法，还包括：在更新所述可靠性参数中的一个或多个时，对所述基本事件进行重新排名并更新对所述顶端事件的最重要贡献者。

5.根据权利要求2所述的计算机实现的方法，其中，更新所述可靠性参数中的一个或多个包括：使用连接到物联网(IoT)云服务的多个传感器来测量所述各个基本事件的故障概率，以及通过通信网络将测量的故障概率发送到故障分析和诊断引擎。

6.根据权利要求5所述的计算机实现的方法，其中，测量所述各个基本事件的故障概率包括：向IoT云服务的IoT设备管理器注册多个传感器，其中，所述IoT设备管理器为所述多个传感器建立凭证以访问所述IoT云服务，接收由所述多个传感器测量的数据流，并定义所述多个传感器与所述IoT云服务之间的通信协议。

7.根据权利要求6所述的计算机实现的方法，其中，将测量的故障概率发送到所述故障分析和诊断引擎包括：由所述IoT云服务的IoT消息处理单元处理由所述多个传感器测量的数据流，以计算测量的故障概率，其中，所述IoT消息处理单元还定义所述IoT云服务与所述故障分析和诊断引擎之间的通信协议。

8.根据权利要求1所述的计算机实现的方法，还包括：生成警报并在图形用户界面上显示对所述顶端事件的最重要贡献者。

9.根据权利要求1所述的计算机实现的方法，还包括：将所述故障树分解成一个或多个最小割集并计算与所述一个或多个最小割集相对应的概率，其中，基于与所述一个或多个最小割集相对应的概率来计算所述顶端事件的概率。

10.一种系统，包括：

一个或多个处理器；以及

耦合到所述一个或多个处理器的存储器，包括使得所述一个或多个处理器执行方法的指令，所述方法包括：

接收故障树，所述故障树包括表示顶端事件的节点、表示各个基本事件的多个节点以及将表示所述各个基本事件的所述多个节点连接到表示所述顶端事件的所述节点的一个或多个逻辑门；

获得与所述各个基本事件相对应的可靠性参数；

11.根据权利要求10所述的系统，其中，所述方法还被配置为更新所述可靠性参数中的一个或多个。

12.根据权利要求11所述的系统，其中，所述方法还被配置为在更新所述可靠性参数中的一个或多个时重新计算与所述各个基本事件相对应的故障树重要性测量，并重新计算所述顶端事件的故障影响因子。

13.根据权利要求12所述的系统，其中，所述方法还被配置为在更新所述可靠性参数中的一个或多个时，对所述各个基本事件进行重新排名并更新所述顶端事件的最重要贡献者。

14.根据权利要求11所述的系统，还包括：连接到物联网(IoT)云服务的多个传感器，其中，更新所述可靠性参数中的一个或多个包括使用所述多个传感器测量所述各个基本事件的故障概率，并通过通信网络将测量的故障概率发送到故障分析和诊断引擎。

15.根据权利要求14所述的系统，其中，测量所述基本事件的故障概率包括：向IoT云服务的IoT设备管理器注册多个传感器，其中，所述IoT设备管理器为所述多个传感器建立凭证以访问所述IoT云服务，接收由所述多个传感器测量的数据流，并定义所述多个传感器与所述IoT云服务之间的通信协议。

16.根据权利要求15所述的系统，其中，将所述测量的故障概率发送到所述故障分析和诊断引擎包括：由所述IoT云服务的IoT消息处理单元处理由所述多个传感器测量的数据流，以计算所述测量的故障概率，其中，所述IoT消息处理单元还定义所述IoT云服务与所述故障分析和诊断引擎之间的通信协议。

17.根据权利要求10所述的系统，还包括图形用户界面，其被配置为生成警报并显示对所述顶端事件的最重要贡献者。

18.一种或多种计算机可读介质，其上编码有使得一个或多个处理器执行方法的计算机可执行指令，所述方法包括：

获得与所述各个基本事件相对应的可靠性参数；

计算与所述各个基本事件相对应的顶端事件的故障影响因子，其中，顶端事件的故障影响因子包括基于对应的可靠性参数与对应的故障树重要性测量的相应乘积确定的各个基本事件的条件概率；

基于所述顶端事件的所述故障影响因子对所述各个基本事件进行排名；

识别对所述顶端事件的最重要贡献者，其中，所述最重要贡献者是具有所述顶端事件的最高故障影响因子的基本事件；

更新所述可靠性参数中的一个或多个；

在更新所述可靠性参数中的一个或多个时，重新计算与所述各个基本事件相对应的所述故障树重要性测量，并重新计算所述顶端事件的所述故障影响因子；以及

在更新所述可靠性参数中的一个或多个时，对所述各个基本事件进行重新排名并更新对所述顶端事件的所述最重要贡献者，

其中，更新所述可靠性参数中的一个或多个包括使用连接到物联网(IoT)云服务的多个传感器来测量所述各个基本事件的故障概率，并通过通信网络将测量的故障概率发送到故障分析和诊断引擎。