CN121167244B - 基于概率传播推理的故障根因动态预测方法及系统 - Google Patents

基于概率传播推理的故障根因动态预测方法及系统

Info

Publication number
CN121167244B
CN121167244B CN202511704604.9A CN202511704604A CN121167244B CN 121167244 B CN121167244 B CN 121167244B CN 202511704604 A CN202511704604 A CN 202511704604A CN 121167244 B CN121167244 B CN 121167244B
Authority
CN
China
Prior art keywords
fault
probability
propagation
data
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202511704604.9A
Other languages
English (en)
Other versions
CN121167244A (zh
Inventor
张荣光
任梦林
郭舜
王传芳
刘彭彭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Big Data Center
Original Assignee
Shandong Big Data Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Big Data Center filed Critical Shandong Big Data Center
Priority to CN202511704604.9A priority Critical patent/CN121167244B/zh
Publication of CN121167244A publication Critical patent/CN121167244A/zh
Application granted granted Critical
Publication of CN121167244B publication Critical patent/CN121167244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本公开提供了基于概率传播推理的故障根因动态预测方法及系统,涉及故障定位预测技术领域,包括:构建有向图结构,将每个节点均关联一个动态故障概率,构建故障状态表达体系;基于故障状态表达体系,计算并动态更新边权重,构建动态传播图模型;生成监控数据的故障发生概率,融合故障发生概率得到对齐后的统一概率数据;基于动态传播图模型,利用统一概率数据进行图上概率传播推理,确定最终根因,实现故障快速定位;引入基于强化学习的智能自愈与策略优化算法,自动生成修复策略并执行,同时通过在线学习不断优化决策,形成自我演进的安全运维体系。本公开实现系统故障的精准快速预测定位。

Description

基于概率传播推理的故障根因动态预测方法及系统
技术领域
本公开涉及故障定位预测技术领域,具体涉及一种基于概率传播推理的故障根因动态预测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着政务领域数字化进程的深入,支撑业务运行的信息系统其内部逻辑日趋复杂,组件间的依赖关系呈现出高度动态与网状化的特征。在此类环境中,任一组件状态的异常都可能通过依赖链快速传播,导致大面积业务功能受损。现有主流的故障分析方案通常依赖于对多维度监控指标与日志数据的集中式分析。然而,这些方法在面对复杂、动态的系统环境时,从数据分析的层面暴露出以下固有局限性:
(一)多源数据的一致性与可信度问题。用于分析的状态数据源自多个独立的采集流程或计算引擎,这些数据在生成时刻、采集周期和计算逻辑上存在固有差异。直接进行聚合分析时,会因数据本身的时间偏移、量纲不统一及置信度未知而产生内在矛盾,导致基于矛盾数据得出的系统状态视图失真。
(二)根因量化精度不足。一般采用FTA(故障树分析)算法进行原因定位,但是该故障分析算法存在缺陷,一方面是未结合多源数据验证故障基本事件的真实性,易片面信息判断;另一方面是缺乏动态调整机制,难以应对系统动态变化(如资源调度、业务迭代)对故障关联关系的影响,导致根因判断精度不足。
(三)根因推断过程的可解释性与量化精度不足。传统的分析方法在从大量告警事件中筛选根本原因时,往往依赖于预设规则或简单的概率统计,缺乏一个能够量化评估各潜在原因重要程度的综合模型。这导致推断过程像一个“黑盒”,其结果无法在多个可能的根因之间提供清晰、量化的优先级排序,从而影响了故障决策的效率。
发明内容
本公开为了解决上述问题,提出了基于概率传播推理的故障根因动态预测方法及系统,通过构建能够感知系统状态变化的动态传播图模型,融合多源异构数据,进行可量化的概率传播推理,最终实现根因的精准、动态定位预测。
根据一些实施例,本公开采用如下技术方案:
基于概率传播推理的故障根因动态预测方法,包括:
为各个组件建立全局唯一标识并获取其依赖关系;
基于所述依赖关系,定义节点类型并构建有向图结构,将每个节点均关联一个动态故障概率,构建故障状态表达体系;
基于故障状态表达体系,引入反映系统实时状态的动态因子,计算并动态更新边权重,构建动态传播图模型;
获取多维度监控数据,通过预定义的指标-概率映射函数将原始数据转换为标准化故障概率,并采用融合策略处理多源数据,得到对齐后的统一概率数据;
基于所述动态传播图模型,利用所述统一概率数据进行图上概率传播计算,推演各个组件的故障概率,并提取根因候选集;引入关键重要度加权模型,对根因候选集进行多维度量化排序,根据排序结果预测定位最终根因;
引入基于强化学习的智能自愈与策略优化算法,基于最终根因自动生成修复策略并执行,同时通过在线学习不断优化决策,形成自我演进的运维闭环。
根据一些实施例,本公开采用如下技术方案:
基于概率传播推理的故障根因动态预测系统,包括:
初始化模块,用于为各个组件建立全局唯一标识并获取其依赖关系;
故障依赖建模模块,用于基于所述依赖关系,定义节点类型并构建有向图结构,将每个节点均关联一个动态故障概率,构建故障状态表达体系;
基于故障状态表达体系,引入反映系统实时状态的动态因子,计算并动态更新边权重,构建动态传播图模型;
多源数据对齐模块,用于获取多维度监控数据,通过预定义的指标-概率映射函数将原始数据转换为标准化故障概率,并采用融合策略处理多源数据,得到对齐后的统一概率数据;
推理与根因定位模块,用于基于所述动态传播图模型,利用所述统一概率数据进行图上概率传播计算,推演各个组件的故障概率,并提取根因候选集;引入关键重要度加权模型,对根因候选集进行多维度量化排序,根据排序结果预测定位最终根因;
强化学习优化模块,用于引入基于强化学习的智能自愈与策略优化算法,基于最终根因自动生成修复策略并执行,同时通过在线学习不断优化决策,形成自我演进的运维闭环。
根据一些实施例,本公开采用如下技术方案:
一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的基于概率传播推理的故障根因动态预测方法。
根据一些实施例,本公开采用如下技术方案:
一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于概率传播推理的故障根因动态预测方法。
与现有技术相比,本公开的有益效果为:
本公开的基于概率传播推理的故障根因动态预测方法,通过构建融合实时状态因子的动态传播图模型,将多源异构数据转化为统一的概率化输入,显著提升了复杂依赖环境下故障根因定位的准确性与可靠性;进一步引入关键重要度量化排序与强化学习驱动的智能自愈机制,不仅实现了故障的精准、快速定位,还形成了从诊断到修复的自治闭环,有效降低了系统平均恢复时间(MTTR),提升了政务业务系统的连续性与整体运维韧性。
本公开的基于概率传播推理的故障根因动态预测方法,将系统状态从静态快照升级为动态映像,使得故障传播路径的模拟更贴合复杂系统的真实运行状况,有效克服了传统静态模型因无法感知系统内部动态变化而导致的根因判断精度不足问题。
本公开的基于概率传播推理的故障根因动态预测方法,采用基于概率化时间窗口与置信度衰减机制的多源数据对齐策略,能够有效调和来自不同数据源在时间和可信度上的差异,解决了因数据内在矛盾导致的分析失真,为后续推理提供了高质量、一致的概率化输入,从源头保障了故障判定结果的可靠性。
本公开的基于概率传播推理的故障根因动态预测方法,将多元对齐后的故障概率数据在动态传播图上进行概率传播推理,能够量化评估故障在复杂依赖链路上的累积与扩散效应,从而系统性地揭示出隐藏在局部现象背后的根本原因,而非孤立地看待单个节点的告警,极大地提升了在错综复杂的组件中预测真实故障源的能力。
本公开的基于概率传播推理的故障根因动态预测方法,通过引入关键重要度加权模型,对根因候选集进行融合了割集概率、节点影响范围和数据可信度的多维度量化排序,为运维人员提供了清晰、量化的决策依据,避免了仅凭概率高低或经验进行判断的片面性,从而实现了根因的精准筛选与优先级的有效区分。
本公开的基于概率传播推理的故障根因动态预测方法,引入基于强化学习的智能自愈与策略优化算法,构建了从故障诊断到修复执行的完整自治闭环,系统能够基于历史经验自动选择并执行最优恢复策略,并通过在线学习不断优化决策,最终形成自我演进的安全运维体系,显著降低了对人工干预的依赖,提升了系统韧性与业务连续性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例的基于概率传播推理的故障根因动态预测方法流程图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本公开的一种实施例中提供了一种基于概率传播推理的故障根因动态预测方法,方法步骤包括:
步骤一:为各个组件建立全局唯一标识并获取其依赖关系;
步骤二:基于所述依赖关系,定义组件类型并构建有向图结构,为图中每个节点关联一个动态故障概率,构建故障状态表达体系;
步骤三:基于所述故障状态表达体系,引入反映系统实时状态的动态因子,计算并持续更新图中边的权重,构建动态传播图模型;
步骤四:获取监控数据,通过设定的指标-概率映射函数生成监控数据的故障发生概率,并采用融合策略处理多源数据,得到对齐后的统一概率数据;
步骤五:基于所述动态传播图模型,利用所述统一概率数据进行图上概率传播计算,推演系统中所有组件的故障概率,提取根因候选集;引入关键重要度加权模型,对每个根因候选集进行多维度量化排序,根据排序结果预测定位最终根因;
步骤六:引入基于强化学习的智能自愈与策略优化算法,基于最终根因自动生成修复策略并执行,同时通过在线学习不断优化决策,形成自我演进的运维闭环。
作为一种实施例,本公开的基于概率传播推理的故障根因动态预测方法,结合多源数据交叉验证方法,解决多源数据内在矛盾,再通过构建动态故障传播图模型、计算最小割集、量化关键重要度及动态更新机制,实现复杂系统故障的精准快速预测定位,具体实施过程如下:
步骤1:为各个组件建立全局唯一标识并获取其依赖关系;
具体地,利用配置管理技术,为系统内各逻辑组件建立全局唯一标识并获取其依赖关系;
其中,配置管理库作为组件依赖关系的核心载体,为所有监控对象分配唯一资产编号,并记录其依赖关系,为后续构建动态传播图模型提供准确的节点、边与拓扑数据支撑,过程包括:
监控对象覆盖业务系统全栈逻辑组件,包括应用服务、数据中间件、计算实例等;为每个监控对象分配一个全局唯一的资产编号,并将该编号作为故障推理过程中的唯一标识;获取并记录组件间的动态依赖关系,最终构成一个持续更新的、包含唯一资产编号和依赖关系的配置项库,具体如下:
步骤11:资产统一编码与注册。
覆盖业务系统全栈资源,包括应用服务(如订单服务)、中间件(如Redis集群)、主机实例(如DC01-SVR-001)等。为每个监控对象(组件)分配一个全局唯一的资产编号(如BE001、NET002),该编号作为其在后续故障推理过程中的唯一标识(event_id)。
步骤12:依赖关系存储与图谱化。
在配置管理库中,不仅存储组件的静态属性,更关键的是记录组件间的动态依赖关系(如"订单服务依赖Redis集群"、"数据处理任务运行于Spark执行器")。这些依赖关系构成了一张有向图,其中节点是组件,边表示依赖方向(如"依赖"、"运行于")。此图谱是构建故障传播图的结构基础。
步骤13:数据健康与实时同步机制。
为保障配置管理库数据的可靠性,建立了一套健康状态监测与实时同步机制,包括:
(1)健康监测:每分钟对配置管理库服务进行心跳检测,若连续3次失败则触发高级别告警,并启用各数据接收模块中缓存的最近一份依赖关系快照,确保推理流程不中断。
(2)自动同步:与基础设施即代码(IaC)工具(如Terraform)及服务发现系统(如Consul)集成。任何基础设施或应用部署变更都会在5分钟内自动同步至配置管理库,确保依赖图谱的时效性。所有变更记录均带有时间戳,用于步骤3中区分数据缺失与正常维护。
最终获得一个持续更新的、包含唯一资产编号和依赖关系的配置项库,为后续构建动态传播图模型提供完整的节点集(V)、边集(E)和拓扑结构。
步骤2:基于所述依赖关系,定义节点类型并构建有向图结构,将每个节点均关联一个动态故障概率,构建故障状态表达体系;基于故障状态表达体系,引入反映系统实时状态的动态因子,计算并动态更新边权重,构建动态传播图模型,具体包括:
步骤21:图结构构建与节点定义。
基于步骤1中配置管理库中注册的资产依赖关系与业务逻辑,构建一个有向图G =(V, E)。通过每周一次的环路检测(采用Tarjan算法识别强连通分量SCC),若发现环路依赖,则将SCC合并为一个超级节点或插入虚拟节点打破循环,确保推理过程收敛。其中,节点集合V表示系统中所有可能发生的故障事件,边集合E表示故障之间的传播关系。
进一步地,节点分为三种类型:根节点对应配置管理库中的基础组件,其状态由监控数据直接驱动;传播节点表示服务、中间件等逻辑实体,具备故障接收与转发能力;汇聚节点代表系统级业务故障,是故障传播的终点。每个节点均关联一个动态故障概率,该概率随时间变化并受多源监控数据影响,形成完整的故障状态表达体系。
步骤22:动态边权重与动态传播图模型。
将边表示故障从节点传播的路径,其权重是一个动态变量,由基于历史故障数据学习的结构权重与实时负载、调用或处理延迟共同决定,权重计算公式为:
其中,是基于历史故障数据学习的结构权重,反映故障传播的固有倾向;是节点在当前时刻的负载率;是节点的负载上限;是当前从的网络延迟;是延迟敏感系数,通常取值为50~100ms;是Sigmoid函数,用于将负载率映射为[0,1]之间的影响因子。
通过对权重的动态监控,能够实时捕捉故障传播过程中负载与延迟的影响,设定时间段计算并动态更新边权重,从而更新传播图模型,可以得到动态传播图模型,克服传统静态模型的不足。
步骤23:在线学习与动态调整。
为适应系统环境变化,建立完善的在线学习机制。设定时间段计算并动态更新边权重。
作为一种实施例,每5分钟更新一次边权重,反映最新的网络状态和负载情况;每日凌晨基于过去24小时的故障数据,采用最大似然估计方法更新结构权重;每周重新评估数据源可信度权重,确保多源数据融合的准确性。
步骤3:获取多维度监控数据,通过预定义的指标-概率映射函数将原始数据转换为标准化故障概率,并采用融合策略处理多源数据,得到对齐后的统一概率数据;
具体地,本公开的复杂系统架构下,各数据源采集的监控数据存在时间偏差和置信度差异。为实现高精度故障推理,本公开提出一种基于概率化时间窗口的多源数据对齐方法,为动态传播图模型提供标准化输入。该方法通过时间窗口对齐、概率融合计算和置信度衰减机制,实现对多源监控数据的统一处理,具体如下:
步骤31:基于监控指标计算的监控数据中故障发生概率,其通过预定义的指标-概率映射函数生成。
监控数据存储于multi_source_data表,其结构包含以下字段:event_id(资产编号)、source_node(源节点)、timestamp(时间戳)、status(状态)、raw_data(原始数据)、probability(故障概率)、confidence(置信度)。其中,probability字段表示基于监控指标计算的故障发生概率,通过预定义的指标-概率映射函数生成。
(1)对于连续型监控指标(如CPU使用率、内存使用率、网络延迟等),采用分段函数进行映射:
其中,为监控指标值,为指标正常范围下限,为指标异常阈值上限,为中间阈值,为曲线陡度系数,控制概率增长的速率。
(2)对于离散型监控指标(如服务状态、端口状态等),采用直接映射方式:
步骤32:融合故障发生概率得到统一概率数据。
具体地,时间对齐处理采用动态滑动窗口机制。以最早采集时间为基准,设置时间窗口(默认5秒),窗口大小根据网络延迟状况动态调整。对于同一资产编号的监控数据,若其时间戳满足,则纳入同一处理窗口。在窗口期内,对各数据源上报的故障发生概率值进行融合计算。在窗口期内,对各独立数据源上报的故障发生概率值进行融合,采用以下公式计算综合故障概率:
其中,为融合后的故障概率,为该窗口期内上报了有效数据的数据源总数,为第k 个数据源根据其监控指标计算得到的原始故障发生概率;权重为第k 个数据源的置信度权重,取值范围为[0,1],始值基于数据源的历史准确率设定。
进一步地,数据缺失处理采用指数衰减模型,当某数据源连续未上报数据时,其置信度权重按指数规律衰减:
其中,为当前时刻的权重,为初始权重,为衰减系数(默认取值0.1/分钟),为连续缺失时长,通过查询CMDB的配置变更记录,排除因系统维护导致的数据缺失情况。
进一步地,最终输出的数据格式包括以下字段:event_id(资产编号)、timestamp(对齐后时间戳)、probability(融合概率)、confidence(整体置信度)、data_source_count(有效数据源数量)。整体置信度计算如下,它反映了本次多源数据融合结果的整体可信程度:
其中,表示整体置信度,反映多源数据融合结果的可信程度。
步骤4:基于所述动态传播图模型,利用统一概率数据进行图上概率传播计算,推演各个组件的故障概率,并提取根因候选集;引入关键重要度加权模型,对根因候选集进行多维度量化排序,根据排序结果预测定位最终根因,具体如下:
步骤41:图上故障概率传播推理。
基于构建的动态传播图模型,将步骤32输出的统一概率数据作为图中根节点(基础组件)的初始故障概率输入。随后,在图上执行概率传播计算,以推演出系统中所有组件(图中所有节点)的实时故障概率。传播过程采用逆向推理与正向传播相结合的混合策略。逆向推理从已观测到异常的业务节点(汇聚节点)出发,沿依赖边反向追溯可能的故障根源;正向传播则从已判定为高概率故障的根节点出发,模拟故障沿依赖链向下游扩散的路径与影响。此混合策略能同时兼顾故障自底向上的传播路径与业务依赖关系自顶向下的影响范围,确保推理的全面性。
每个节点的故障概率通过其所有上游节点的故障概率及边权重计算得出:
其中,表示节点的所有上游节点集合,为动态边权重(由步骤22计算得出),为上游节点的故障概率。该公式体现了故障在系统中的传播累积效应,能够准确反映复杂依赖下的故障状态。
步骤42:提取根因候选集。
基于步骤2中构建的动态传播图模型,所关注的汇聚节点(即系统级业务故障)视为故障树的顶事件,并将该汇聚节点到其所有可达根节点的传播路径,逻辑上视为一棵故障树。基于此故障树视图,结合步骤41计算出的每个节点的实时故障概率,提取当前顶事件对应的所有最小割集,作为根因候选集。
其中,最小割集是指能够导致顶事件发生的最小基本事件集合,每个割集代表一种可能的故障组合。具体过程如下:
首先从顶事件出发,逐层向下遍历故障树,识别所有导致顶事件发生的基本事件组合;其次利用动态更新机制确保割集与当前系统状态一致;对每个割集,计算其联合故障概率:
其中,为割集中包含的基本事件(即故障树中的底事件,对应于动态传播图模型中的根节点),为基本事件的当前故障概率(此概率值已在步骤41的全图概率传播过程中被计算和更新),该联合概率反映了由该组基本事件共同导致顶事件发生的可能性。
步骤43:引入关键重要度加权模型,对每个根因候选集进行多维度量化排序。
为提高根因定位的准确性,引入关键重要度加权模型,对每个根因候选集进行多维度量化排序。
关键重要度综合考虑割集概率、节点影响因子、数据源可信度等因素,计算公式如下:
其中,为割集的联合故障概率;为割集中基本事件的数量;为节点的影响因子,表示该节点故障对系统的影响范围;为节点的多源数据融合置信度,反映该节点故障概率的可信程度。
该公式从概率、影响范围、数据可信度三个维度综合评价每个割集的根因可能性,实现对根因的精准排序。
步骤44:最终根因预测与输出。
根据关键重要度排序结果,选取排名前K 的割集作为根因候选集(K 可配置,默认为3),并结合多源数据交叉验证机制进行最终确认。验证规则如下:
若某一割集中所有基本事件均被多个数据源同时判定为故障状态,则该割集被确认为根因;
若多个割集均满足条件,则选择关键重要度最高的割集作为最终根因;
输出结果包括根因割集列表、每个割集的关键重要度、以及支持该判断的多源数据标识。最终输出格式如表1所示。
表1最终输出格式
步骤5:引入基于强化学习的智能自愈与策略优化算法,基于最终根因自动生成修复策略并执行,同时通过在线学习不断优化决策,形成自我演进的运维闭环。
本公开为实现从“故障快速定位”到“故障自主修复”的闭环,提升复杂系统的整体韧性,引入一个基于强化学习的智能自愈与策略优化模块。该模块接收步骤4输出的根因割集,自动生成并执行修复策略,同时通过在线学习不断优化决策,形成自我演进的安全运维体系。具体如下:
步骤51:自愈策略知识库与动作生成。
构建一个面向故障自愈的策略知识库,其中每条策略包含:适用根因模式(如MCS001:数据库主节点故障)、执行动作(如“重启数据库服务”、“切换至备用节点”)、预执行条件(如“备用节点资源充足”)、预期恢复时间、历史成功率等信息。
当智能决策模块确认根因割集后,自动触发策略检索:根据根因割集ID(如MCS001)与当前系统状态(如负载、资源利用率),从知识库中匹配Top-N个最合适的修复策略。若知识库中无完全匹配项,则采用基于图相似度的策略推荐:计算当前故障传播图与历史案例图的相似度,推荐相似度高于阈值(如0.85)的历史策略。
步骤52:强化学习驱动的策略决策与执行。
(1)首先,构建强化学习模型框架:
状态(State, S):由输出的根因割集列表、节点故障概率、系统实时负载、网络质量指标等联合构成的状态向量。
动作(Action, A):知识库中可执行的修复策略集合(如动作a1: 重启服务,动作a2: 流量切换)。
奖励(Reward, R):设计多维度奖励函数:
用来鼓励快速恢复;
用来鼓励低成本操作;
用来鼓励低风险操作;
(2)在线决策与学习:
采用PPO(近端策略优化)算法训练RL智能体,使其能在当前状态S下选择最优动作A。
根据最终恢复效果(是否成功、耗时、资源消耗)计算奖励R,并以此更新智能体的策略网络,实现经验积累与策略优化。
最终输出一张故障自愈执行看板,如表2所示。
表2 故障自愈执行看板示例
实施例2
本公开的一种实施例中提供了一种基于概率传播推理的故障根因动态预测系统,包括:
初始化模块,用于为各个组件建立全局唯一标识并获取其依赖关系;
故障依赖建模模块,用于故障依赖建模模块,用于基于所述依赖关系,定义节点类型并构建有向图结构,将每个节点均关联一个动态故障概率,构建故障状态表达体系;基于故障状态表达体系,引入反映系统实时状态的动态因子,计算并动态更新边权重,构建动态传播图模型;
多源数据对齐模块,用于多源数据对齐模块,用于获取多维度监控数据,通过预定义的指标-概率映射函数将原始数据转换为标准化故障概率,并采用融合策略处理多源数据,得到对齐后的统一概率数据;
推理与根因定位模块,用于基于所述动态传播图模型,利用所述统一概率数据进行图上概率传播计算,推演各个组件的故障概率,并提取根因候选集;引入关键重要度加权模型,对根因候选集进行多维度量化排序,根据排序结果预测定位最终根因;
强化学习优化模块,用于引入基于强化学习的智能自愈与策略优化算法,基于最终根因自动生成修复策略并执行,同时通过在线学习不断优化决策,形成自我演进的运维闭环。
实施例3
本公开的一种实施例中提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的基于概率传播推理的故障根因动态预测方法。
实施例4
本公开的一种实施例中提供了一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于概率传播推理的故障根因动态预测方法。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (7)

1.基于概率传播推理的故障根因动态预测方法,其特征在于,包括:
为各个组件建立全局唯一标识并获取其依赖关系;
基于所述依赖关系,定义节点类型并构建有向图结构,将每个节点均关联一个动态故障概率,构建故障状态表达体系;
基于故障状态表达体系,引入反映系统实时状态的动态因子,计算并动态更新边权重,构建动态传播图模型,包括:
将边表示为故障从一个节点向其他节点传播的路径;
边的权重为动态变量,由基于历史故障数据学习的结构权重与实时负载、调用或处理延迟共同决定;
设定时间段计算并动态更新边权重,构建动态传播图模型;
获取多维度监控数据,通过预定义的指标-概率映射函数将原始数据转换为标准化故障概率,并采用融合策略处理多源数据,得到对齐后的统一概率数据,包括:
采用基于概率化时间窗口的多源数据对齐方法,其通过时间窗口对齐、概率融合计算和置信度衰减机制,实现对多源监控数据的统一处理;所述监控数据存储于multi_source_data表,multi_source_data表的结构包含以下字段:资产编号event_id、源节点source_node、时间戳timestamp、状态status、原始数据raw_data、故障概率probability以及置信度confidence;其中,probability字段表示基于监控指标计算的监控数据中故障发生概率,其通过预定义的指标-概率映射函数生成;
基于所述动态传播图模型,利用所述统一概率数据进行图上概率传播计算,推演各个组件的故障概率,并提取根因候选集;引入关键重要度加权模型,对根因候选集进行多维度量化排序,根据排序结果预测定位最终根因;
所述引入关键重要度加权模型,对每个根因候选集进行多维度量化排序,根据量化排序结果,确定最终根因,包括:
引入关键重要度加权模型;
综合考虑割集概率、节点影响因子、数据源可信度因素,综合评价每个割集的根因可能性,实现对根因的精准排序;
根据关键重要度排序结果,选取排名前K的割集作为最终根因候选集,并采用验证机制进行确认;
引入基于强化学习的智能自愈与策略优化算法,基于最终根因自动生成修复策略并执行,同时通过在线学习不断优化决策,形成自我演进的运维闭环。
2.如权利要求1所述的基于概率传播推理的故障根因动态预测方法,其特征在于,所述为各个组件建立全局唯一标识并获取其依赖关系,包括:
监控对象覆盖业务系统全栈逻辑组件,包括应用服务、数据中间件及计算实例;
为每个监控对象分配一个全局唯一的资产编号,该编号作为故障推理过程中的唯一标识;
获取并记录组件间的动态依赖关系,构成一个持续更新的、包含唯一资产编号和依赖关系的配置项库。
3.如权利要求1所述的基于概率传播推理的故障根因动态预测方法,其特征在于,所述基于所述依赖关系,定义节点类型并构建有向图结构,将每个节点均关联一个动态故障概率,构建故障状态表达体系,包括:
基于具有全局资产依赖关系的配置项库,构建一个有向图结构,有向图结构的节点为资产;
将节点分为三种类型,其中,根节点对应配置项库中的基础设施层资产,其状态由监控数据直接驱动;传播节点表示服务、中间件逻辑实体,具备故障接收与转发能力;汇聚节点代表系统级业务故障,是故障传播的终点;
对每个节点均关联一个动态故障概率,该概率随时间变化并受多源监控数据影响,形成完整的故障状态表达体系。
4.如权利要求1所述的基于概率传播推理的故障根因动态预测方法,其特征在于,基于动态传播图模型,利用统一概率数据进行图上概率传播计算,推演各个组件的故障概率,并提取根因候选集,包括:
进行图上概率传播推理,计算每个节点的实时故障概率;图上概率传播推理采用逆向推理与正向传播相结合的方式,既考虑故障自底向上的传播路径,也考虑业务依赖关系自顶向下的影响范围;
基于每个节点的实时故障概率,提取当前顶事件对应的所有最小割集,作为根因候选集,最小割集是指能够导致顶事件发生的最小基本事件集合,每个割集代表一种可能的故障组合。
5.基于概率传播推理的故障根因动态预测系统,其特征在于,具体执行如权利要求1-4任一项所述的基于概率传播推理的故障根因动态预测方法,包括:
初始化模块,用于为各个组件建立全局唯一标识并获取其依赖关系;
故障依赖建模模块,用于基于所述依赖关系,定义节点类型并构建有向图结构,将每个节点均关联一个动态故障概率,构建故障状态表达体系;
基于故障状态表达体系,引入反映系统实时状态的动态因子,计算并动态更新边权重,构建动态传播图模型;
多源数据对齐模块,用于获取多维度监控数据,通过预定义的指标-概率映射函数将原始数据转换为标准化故障概率,并采用融合策略处理多源数据,得到对齐后的统一概率数据;
推理与根因定位模块,用于基于所述动态传播图模型,利用所述统一概率数据进行图上概率传播计算,推演各个组件的故障概率,并提取根因候选集;引入关键重要度加权模型,对根因候选集进行多维度量化排序,根据排序结果预测定位最终根因;
强化学习优化模块,用于引入基于强化学习的智能自愈与策略优化算法,基于最终根因自动生成修复策略并执行,同时通过在线学习不断优化决策,形成自我演进的运维闭环。
6.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-4任一项所述的基于概率传播推理的故障根因动态预测方法。
7.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-4任一项所述的基于概率传播推理的故障根因动态预测方法。
CN202511704604.9A 2025-11-20 2025-11-20 基于概率传播推理的故障根因动态预测方法及系统 Active CN121167244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202511704604.9A CN121167244B (zh) 2025-11-20 2025-11-20 基于概率传播推理的故障根因动态预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202511704604.9A CN121167244B (zh) 2025-11-20 2025-11-20 基于概率传播推理的故障根因动态预测方法及系统

Publications (2)

Publication Number Publication Date
CN121167244A CN121167244A (zh) 2025-12-19
CN121167244B true CN121167244B (zh) 2026-03-27

Family

ID=98040118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202511704604.9A Active CN121167244B (zh) 2025-11-20 2025-11-20 基于概率传播推理的故障根因动态预测方法及系统

Country Status (1)

Country Link
CN (1) CN121167244B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN121614305A (zh) * 2026-01-30 2026-03-06 国网天津市电力公司信息通信公司 基于数据血缘的故障处理方法、装置和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120780519A (zh) * 2025-06-27 2025-10-14 上海擎创信息技术有限公司 结合多维异常检测的跨系统故障诊断方法及系统
CN120821591A (zh) * 2025-06-19 2025-10-21 广西电网有限责任公司南宁供电局 基于知识图谱动态演化的it资产故障传播预测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112448836B (zh) * 2019-09-04 2023-09-15 中兴通讯股份有限公司 故障根因确定方法、装置、服务器和计算机可读介质
CN113590370B (zh) * 2021-08-06 2022-06-21 北京百度网讯科技有限公司 一种故障处理方法、装置、设备及存储介质
CN115774855A (zh) * 2021-09-06 2023-03-10 中兴通讯股份有限公司 一种故障根因确定方法、装置、存储介质及电子装置
EP4310618B1 (en) * 2022-07-21 2024-11-13 Tata Consultancy Services Limited Method and system for causal inference and root cause identification in industrial processes
CN120872659A (zh) * 2025-07-15 2025-10-31 上海擎创信息技术有限公司 一种挖掘故障传播权重参数的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120821591A (zh) * 2025-06-19 2025-10-21 广西电网有限责任公司南宁供电局 基于知识图谱动态演化的it资产故障传播预测方法及系统
CN120780519A (zh) * 2025-06-27 2025-10-14 上海擎创信息技术有限公司 结合多维异常检测的跨系统故障诊断方法及系统

Also Published As

Publication number Publication date
CN121167244A (zh) 2025-12-19

Similar Documents

Publication Publication Date Title
CN120223501B (zh) 一种基于ai智能体的云监控服务运维动态优化系统及方法
CN118761745B (zh) 应用于企业oa协同工作流程优化方法
CN118967147B (zh) 一种基于多字段解析与融合的售后触发管理方法及系统
CN120597287A (zh) 基于自适应安全平台的漏洞管理方法及系统
CN121167244B (zh) 基于概率传播推理的故障根因动态预测方法及系统
CN120162213A (zh) 风险预警方法、系统及电子设备
CN120811863A (zh) 基于云平台的运维交付异常事件预警方法及系统
CN120821591A (zh) 基于知识图谱动态演化的it资产故障传播预测方法及系统
CN121456057B (zh) 基于mbse的系统全生命周期管理方法及系统
CN120579194B (zh) 一种基于智能协同的漏洞闭环处置方法及系统
CN120750739B (zh) 一种云平台的告警根因定位和修复方法、装置及设备
CN120343077B (zh) 基于Python业务管理平台的服务接入智能管理方法及其系统
CN119988240B (zh) 基于人工智能的测试风险识别方法及系统
CN121299316A (zh) 一种基于goose/sv闭环测试的智能变电站虚回路在线传动校验方法
CN121301065A (zh) 基于大数据算法的智能运维管理方法
CN120780519A (zh) 结合多维异常检测的跨系统故障诊断方法及系统
CN120822604A (zh) 一种基于智能体的自动化运维方法及系统
CN120639570A (zh) 基于人工智能的网络故障处理方法、装置、设备及介质
CN119248560A (zh) 一种机场数据服务接口故障分析方法及系统
CN121365060B (zh) 一种基于多模态分析的智能数据质量评估方法、设备及介质
CN121561681B (zh) 基于用户正常行为的用户行为分析方法和系统
CN121212537B (zh) 基于区块链的软件技术研发任务进度跟踪系统
CN121765577A (zh) 多源运维数据的异常分析方法、装置、设备、介质及产品
CN121785763A (zh) 异常数据的处理方法、装置及存储介质
CN121333940A (zh) 一种基于深度学习的网络运维自动化管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant