CN116016114A - 故障处理方法、装置、非易失性存储介质及电子设备 - Google Patents

故障处理方法、装置、非易失性存储介质及电子设备 Download PDF

Info

Publication number
CN116016114A
CN116016114A CN202211686107.7A CN202211686107A CN116016114A CN 116016114 A CN116016114 A CN 116016114A CN 202211686107 A CN202211686107 A CN 202211686107A CN 116016114 A CN116016114 A CN 116016114A
Authority
CN
China
Prior art keywords
data
fault
preset
target
root
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211686107.7A
Other languages
English (en)
Inventor
龙勇
马健骐
赵晓彤
马晓乾
郭建章
孙岳
杜忠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211686107.7A priority Critical patent/CN116016114A/zh
Publication of CN116016114A publication Critical patent/CN116016114A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种故障处理方法、装置、非易失性存储介质及电子设备。其中,该方法包括:获取目标网络系统的目标故障数据;通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率;依据目标关联概率对至少一个目标根因数据进行排列,生成故障根因表;在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表。本发明解决了现有技术无法根据数据之间的关联关系进行故障处理的技术问题。

Description

故障处理方法、装置、非易失性存储介质及电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种故障处理方法、装置、非易失性存储介质及电子设备。
背景技术
当前对于IP数通网络,目前网络故障的处理,主要还是基于人力定位分析,做应急性处理,或者关注于告警信息间的逻辑分析,或通过算法进行统计故障分析,很少能从系统全数据上进行信息关联建模和根因分析。
当前这种对设备隐患异常主要基于维护人员人工处理的方式,依赖于维护人员的专业能力和操作经验,处理率过低,处理多有不到位,处理流程也难以形成闭环迭代。
而现在对故障分析诊断,有如下的研究:
有侧重的是通过标题库简历关联库,输出规则模板和效果分析;应用于对告警的优化与工单的压缩。但不是侧重于通过告警的本身逻辑联系关联,也不是依据告警的关联关系进行告警的推理处理。
有侧重的是告警之间的概率关系,而不是通过逻辑分析和运维数据得到的告警之间的关联度。
有对通过告警时段建立关联模型,并应用这样建立的关联关系进行处理。
有对告警内容/单词进行向量化操作,再对词向量信息进行操作,进行神经网络模型训练,即是一种告警的AI学习方案。不是基于专家处理和告警逻辑关联关系的处理。
有的是对采集信息进行异常检测和根因分析,从而辅助异常修改。没有涉及概率建模和基于关联模型的处理。
有的采用聚类算法进行告警聚合,用AI算法进行根因分析,没有涉及概率建模和基于关联模型的处理。
针对上述现有技术无法根据数据之间的关联关系进行故障处理的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种故障处理方法、装置、非易失性存储介质及电子设备,以至少解决现有技术无法根据数据之间的关联关系进行故障处理的技术问题。
根据本发明实施例的一个方面,提供了一种故障处理方法,其特征在于,包括:获取目标网络系统的目标故障数据;通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,所述预设关联关系模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:产生故障的预设故障数据,所述预设故障数据关联的预设根因数据,以及用于表示所述预设故障数据与所述预设根因数据之间关联关系的预设关联概率;依据所述目标关联概率对至少一个所述目标根因数据进行排列,生成故障根因表;在预设故障处理库中查询所述故障根因表中每个所述目标根因数据对应的故障解除方案,生成故障解除表。
可选地,在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,所述方法还包括:获取预先标定的第一根因数据;获取所述目标网络系统执行所述第一根因数据产生的第一结果数据,和产生所述第一结果数据的第一关联概率;将所述第一结果数据作为第二根因数据,获取所述目标网络系统执行所述第二根因数据产生的第二结果数据,和产生所述第二结果数据的第二关联概率;在所述第二结果数据为预设故障数据的情况下,确定所述第一根因数据为所述预设故障数据的预设根因数据;根据所述第一关联概率和所述第二关联概率,确定所述预设根因数据的预设关联概率。
可选地,在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,所述方法还包括:获取预设故障数据的预设故障时间;以所述预设故障时间为起点,获取目标网络系统在所述预设故障时间之前的预设时间周期内产生的至少一个上游数据;在至少一个所述上游数据中确定所述预设故障数据的预设根因数据;将所述预设根因数据在至少一个所述上游数据中出现的频率数,确定所述预设根因数据的预设关联概率。
可选地,在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,所述方法还包括:获取预设故障数据指示的故障设备的预设位置信息;确定所述预设位置信息所在预设区域空间内的至少一个预设区域数据,其中,所述预设区域数据用于表示所述预设区域空间内至少一个所述预设区域设备对应的运行参数;在至少一个所述预设区域数据中确定所述预设故障数据的预设根因数据;根据所述预设根因数据对应的预设区域设备与所述故障设备之间的距离值,确定所述预设根因数据的预设关联概率。
可选地,在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,所述方法还包括:获取预设故障数据指示的故障设备的预设参数数据;将所述预设参数数据作为所述预设故障数据的预设根因数据;在预设阈值库中确定与所述预设参数数据匹配的目标参数阈值,其中,所述预设阈值库中预先设有多个预设参数阈值,和每个所述预设参数阈值对应的预设关联概率;确定所述目标参数阈值对应的所述预设关联概率。
可选地,在预设故障处理库中查询所述故障根因表中每个所述目标根因数据对应的故障解除方案,生成故障解除表之后,所述方法还包括:接收所述目标故障数据的故障解除报告,其中,所述故障解除报告中携带有所述目标故障数据的目标根因数据;依据将所述目标故障数据和关联的所述目标根因数据,调整所述预设关联关系模型。
可选地,依据所述目标关联概率对至少一个目标根因数据进行排列,生成故障根因表包括:将所述至少一个所述目标根因数据按照所述目标关联概率由高到低的顺序进行排列,生成所述故障根因表。
根据本发明实施例的另一方面,还提供了一种故障处理装置,其特征在于,包括:获取模块,用于获取目标网络系统的目标故障数据;分析模块,用于通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,所述预设关联关系模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:产生故障的预设故障数据,所述预设故障数据关联的预设根因数据,以及用于表示所述预设故障数据与所述预设根因数据之间关联关系的预设关联概率;第一生成模块,用于依据所述目标关联概率对至少一个所述目标根因数据进行排列,生成故障根因表;第二生成模块,用于在预设故障处理库中查询所述故障根因表中每个所述目标根因数据对应的故障解除方案,生成故障解除表。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述所述故障处理方法。
根据本发明实施例的另一方面,还提供了一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行上述所述的故障处理方法。
在本发明实施例中,获取目标网络系统的目标故障数据;通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,预设关联关系模型为使用多组数据通过机器学习训练出的,多组数据中的每组数据均包括:产生故障的预设故障数据,预设故障数据关联的预设根因数据,以及用于表示预设故障数据与预设根因数据之间关联关系的预设关联概率;依据目标关联概率对至少一个目标根因数据进行排列,生成故障根因表;在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表,从而实现了根据数据之间的关联关系进行故障处理的技术效果,进而解决了现有技术无法根据数据之间的关联关系进行故障处理技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种故障处理方法的流程图;
图2是根据本发明实施例的一种故障分析系统的示意图;
图3是根据本发明实施例的一种数据关联硬件信息的示意图;
图4是根据本发明实施例的一种数据关联配置信息的示意图;
图5是根据本发明实施例的一种故障处理装置的示意图;
图6是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种故障处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种故障处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标网络系统的目标故障数据;
步骤S104,通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,预设关联关系模型为使用多组数据通过机器学习训练出的,多组数据中的每组数据均包括:产生故障的预设故障数据,预设故障数据关联的预设根因数据,以及用于表示预设故障数据与预设根因数据之间关联关系的预设关联概率;
步骤S106,依据目标关联概率对至少一个目标根因数据进行排列,生成故障根因表;
步骤S108,在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表。
在本发明实施例中,获取目标网络系统的目标故障数据;通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,预设关联关系模型为使用多组数据通过机器学习训练出的,多组数据中的每组数据均包括:产生故障的预设故障数据,预设故障数据关联的预设根因数据,以及用于表示预设故障数据与预设根因数据之间关联关系的预设关联概率;依据目标关联概率对至少一个目标根因数据进行排列,生成故障根因表;在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表,从而实现了根据数据之间的关联关系进行故障处理的技术效果,进而解决了现有技术无法根据数据之间的关联关系进行故障处理技术问题。
需要说明的是,故障处理方法可以在故障分析系统中执行。
图2是根据本发明实施例的一种故障分析系统的示意图,如图2所示,该系统主要包括:数据定义模块,数据关联模块,专家AI库模块;数据采集模块,故障分析模块,故障处理模块和结果反馈模块。
可选地。系统可分为关联层和处理层,其中,关联层包括:数据定义模块,数据关联模块,专家AI库模块和结果反馈模块;处理层包括:数据采集模块,故障分析模块和故障处理模块。
作为一种可选的示例,数据定义模块用于对系统需要分析的数据,在全数据空间,根据逻辑和经验分析,标注数据特性,进行关联数据定义。即对相互形成关联关系的数据分为关联的源数据(如根因数据)和被关联数据(如故障数据);其中,源数据(如根因数据)为被关联数据产生的原因或可能原因,或不可能原因。同一个源数据(如根因数据),可以有多个被关联的数据;即一个原因可以导致多个结果;同一个被关联数据(如故障数据),可以有多个源数据(如根因数据),如一个结果,可能是不同原因导致的,或者这个结果出现后,哪些情况是不能出现的。
可选地,数据定义模块还定义每个源数据(如根因数据)对应的解除故障操作(如故障解除方案)。如当源数据(如根因数据)表示接口被配置为DOWN时,相关的解除故障操作(如故障解除方案)为配置UP;当源数据(如根因数据)为接口没有配置IP地址时,相关的解除故障操作(如故障解除方案)为获取正确的IP地址配置。解除故障操作(如故障解除方案),可以为多个操作组成的操作流程或方案。
可选地,数据定义模块还包括:对每个被关联数据(如故障数据),当需要判明相应的源数据(如根因数据)状态或值大小时,所需要的检测判明操作。
例如在流量丢包时,去获取接口流量是否拥塞,以判定是否时因为流量拥塞导致的丢包。
需要说明的是,在数据定义模块对于数据的定义,并不需要一开始就把所有的数据的所有关联关系进行完全的定义。可行的方案有,可以先对明确和直接的数据进行关联,然后通过专家AI库模块和结果反馈进行持续的迭代优化。
作为一种可选的示例,专家AI库模块,为系统运维的专家经验及AI数据分析库;此模块基于系统历史数据和采集的最新数据,进行专家(或经验)判定,和进行AI数据分析,定期优化定义的关联数据(即根因数据和故障数据)的关联关系和关联度量;分析对应信息导致故障时的直接操作建议。
例如,通过运维专家的专家经验,增加或减少源数据(如根因数据)和被关联数据(如故障数据)的关联关系,包括不可能导致因果关系的源数据(如根因数据)和被关联数据(如故障数据)的关系,即源数据(如根因数据)和被关联数据(如故障数据)的关联概率为0。同时,通过AI的算法(如基于历史数据出现频率),优化调整关联的源数据(如根因数据)和被关联数据(如故障数据)的关联度的度量概率值(如关联概率)。
可选地,对于专家AI库模块,在本发明中,并不需要大量实时和很频繁的进行数据关联概率优化。可行的方案有,在专家经验进行积累后,对关联数据(即根因数据和故障数据)的概率值(即关联概率)进行必要和持续的优化;在系统数据积累一定时间段后,通过通用的AI算法,对关联数据概率值(即关联概率)进行参考性优化,以减少人工调节不同数据源之间的关联概率的工作量。
作为一种可选的示例,数据关联模块,用于基于数据特性,进行数据关联;并标注关联程度;被关联数据(如故障数据)与源数据(如根因数据)之间的关联管理,可以分为必然、可能、小概率、不可能四个等级,并采用关联概率进行数据建模。建模的过程,相当于数据关联树和关联森林的建立。
作为一种可选的示例,数据采集模块,用于采集系统的配置、状态、性能、流量、告警、操作、日志等数字化信息;这些数据可以视为Key-Value方式定义相关系统的特定指标。同时,此模块还将把相关数据作长期化保存。
作为一种可选的示例,故障分析模块,用于对系统产生的故障信息,基于数据关联关系数据模型(如预设关联关系模型),进行故障分析,即此模块为对数据关联数据模型(如预设关联关系模型)的应用模块。分析出系统故障的根因(如分析出导致故障的最初始的硬件或配置等数据)。根因包括了可能原因,小概率原因,和不可能的情况。
可选地,故障分析模块会根据对故障的根因分析情况,获取对应的操作建议。如对于流量拥塞这个故障,分析出可能原因是接口成员口down,导致接口转发带宽下降;可能是由其他业务流量临时导入到此接口上,也有可能是相关业务中,有部分业务流量突发了,等等。让后根据之前定义和优化后的概率值,对故障根因进行排序,然后针对每一个可能的原因,关联到相应的处理方案和处理流程。
作为一种可选的示例,故障处理模块,用于先从故障分析模块,获得对要处理的故障(如故障数据)的所有根因(如根因数据),而这些根因(如根因数据)是已经根据根因(如根因数据)的概率值(如关联概率)进行了排序的;然后依据这些有序的根因,提出根因对应的解除故障处理的建议和步骤;并对这些操作步骤和方案,进行归并和优化(如重复操作考虑是否可以只执行一次,关联操作是否有先后顺序,相关操作是否因为为互斥操作而需要恢复前次操作后再执行后续操作,这个优化,可以根据专家经验进行处理)。
可选地,故障处理模块依据关联数据(如故障数据)的分析结果及对应的操作建议/方案,和系统的运维策略,进行相应的故障处理。如可通过控制器直接控制下发恢复指令到设备,或对维护人员进行操作指导,及信息提示,短信报警,厂商支持矩阵信息等方式,对系统的故障进行针对性处理。
作为一种可选的示例,结果反馈模块,用于在故障处理后,总结故障的真正根因,即在众多根因(即预设根因数据)中,标注出具体是哪个根因(如目标根因数据)导致的相关故障(如目标故障数据),对这个导致此故障的根因,就可以分析是否可以相应提高与被关联数据的概率值(如关联概率),而其他的根因,若是多次出现没有导致此故障,则可以分析是否可以相应的降低与被关联数据的概率值(如关联概率)。并分析操作步骤的效率,即具体执行的解除故障操作(即故障解除方案),与直接对标注出的具体根因进行操作,冗余的操作有哪些,这些操作,是否可以被优化。
可选地,结果反馈对故障处理结果进行上述分析后,可以把分析结果,反馈到数据定义模块或数据关联模块。
可选地,结果反馈模块通过对故障处理结果的分析和反馈,对数据关联森林模型的关联信息(即关联森林模型中的关联概率和关联关系)、操作策略/方案进行调整和优化,包括提升关联概率值,减小关联小概率,增加或删除不可能信息(即度量为0概率值),还包括增加操作,操作步骤优化,操作归并等。
可选地,在结果反馈模块中,本发明并不强求每次结果都进行强制性反馈和关联概率调整。可行的方案有,在故障处理结果分析与系统推进的根因有明显差异时,进行必要性迭代调整。此时调整,需要主要对用的关联关系和关联度量值,是根据哪种建模方法获取的,然后调整具体方法的度量值,或度量参数或计算函数,设置各种方法合并的权重值。
可选地,在关联层,应用数据定义模块的定义,进行数据的基本关联关系模型(即预设关联关系模型)的建立,通过专家AI库模块,对数据定义和数据关联进行优化,而对于系统运行结果,由结果反馈模块分析后,输出分析结果以支持对数据定义和数据关联的关联模型信息进行优化。
可选地,在处理层,数据采集模块采集系统完整数据,这些数据应用于在系统产生故障,故障分析模块进行分析时,而数据分析得到的结果,会应用于故障处理模块。
可选地,在关联层和处理层之间,专家AI库模块,会应用数据采集模块采集的系统数据进行分析和按需优化;结果反馈模块,会应用故障处理的结果信息进行分析和按需反馈;而本方案的核心模块即数据关联模块产生维护的关联森林数据模型在网络故障处理时,会应用于故障分析模块,分析出故障根因和处理步骤。
在上述步骤S102中,目标网络系统为IP SDN网络系统、通信网络系统、IT网络系统,或数字化系统。
作为一种可选的实施例,在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,方法还包括:获取预先标定的第一根因数据;获取目标网络系统执行第一根因数据产生的第一结果数据,和产生第一结果数据的第一关联概率;将第一结果数据作为第二根因数据,获取目标网络系统执行第二根因数据产生的第二结果数据,和产生第二结果数据的第二关联概率;在第二结果数据为预设故障数据的情况下,确定第一根因数据为预设故障数据的预设根因数据;根据第一关联概率和第二关联概率,确定预设根因数据的预设关联概率。
本发明上述实施例,目标故障数据与目标根因数据之间可以包括多组关联关系,因此,在确定目标故障数据与目标根因数据之间关联关系的情况下,可以从目标根因数据出发,遍历多个关联关系,直到得到目标故障数据,进而可以确定目标故障数据与目标根因数据之间的关联关系。
作为一种可选的示例,从数据定义的故障根因(如第一根因数据)开始,先定义与系统故障的根因数据(如第一根因数据)直接关联的关联数据(如第一结果数据),然后再从这一层关联数据(如第一结果数据)出发,把这一层数据再作为源数据(即将第一结果数据作为第二根因数据),关联出相关联的下一层关联数据(第二结果数据)。依次关联,最终关联到系统呈现的故障告警信息,从而生成基于系统故障根因(如根因数据),和故障关联概率(如预设关联概率)的关联数据森林的数学模型。
可选地,在全数据域的完整的关联关系中,实际是一个以根因数据为起始点(这些点可视为一个根因数据面)的一个网状森林结构。因为一个数据,作为源数据时,可以有多个被关联数据,而在作为被关联数据时,又可以又概率值不同的多个源数据。在初始化关联概率值时,可以参考之前的运维经验值或专家判定值。
可选地,在目标故障数据与目标根因数据之间包括多组关联关系,可以为每组关联关系的关联概率分配对应权重,进而根据目标故障数据与目标根因数据之间多组关联概率和对应权重,确定目标故障数据与目标根因数据之间的目标关联概率。
作为一种可选的实施例,在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,方法还包括:获取预设故障数据的预设故障时间;以预设故障时间为起点,获取目标网络系统在预设故障时间之前的预设时间周期内产生的至少一个上游数据;在至少一个上游数据中确定预设故障数据的预设根因数据;将预设根因数据在至少一个上游数据中出现的频率数,确定预设根因数据的预设关联概率。
本发明上述实施例,可以根据时间维度,获取预设故障数据出现之前的预设时间周期内产生的上游数据,进而根据预设时间周期内产生的上游数据,确定预设故障数据的预设根因数据,实现了在时间维度确定预设故障数据与预设根因数据之间的关联关系和预设关联概率的确定。
作为一种可选的实施例,通过标注参数进行时间维度的关联,基本方法为:在故障告警(即预设故障数据)产生的前面1-3个性能、状态周期内,如5分钟,出现的状态迁移、性能超限、流量超限、告警事件等信息,都视为与此故障告警有关联关系度,而度量的方法,就是通过预设置的渐进函数limx→∞f(x)=1和出现的频率参数计算。
例如,一个业务丢包超限告警出现前的3个采集周期内,出现了接口流量增加、子接口的down、配置变化等,都视为与此故障有关联。
可选地,关联的概率度量值(即预设关联概率),由渐进函数
Figure BDA0004021225630000101
计算,其中,x为出现的频率数。在此方式下,人工只需设置故障关联的之前数据时长,以及选择概率计算计算函数,以及设置关联度门限,如25%这样当一个故障出现,之前的数据就可以被本系统自动关联和标注,即根据概率计算工具计算超过关联门限的信息,都可作为此故障的关联数据,关联的概率值就是计算得到的概率值。而且后续人工也只需进行这几个参数值和渐进函数的选择,无需大量人工处理。
作为一种可选的实施例,在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,方法还包括:获取预设故障数据指示的故障设备的预设位置信息;确定预设位置信息所在预设区域空间内的至少一个预设区域数据,其中,预设区域数据用于表示预设区域空间内至少一个预设区域设备对应的运行参数;在至少一个预设区域数据中确定预设故障数据的预设根因数据;根据预设根因数据对应的预设区域设备与故障设备之间的距离值,确定预设根因数据的预设关联概率。
本发明上述实施例,可以根据空间维度,获取预设故障数据指示设备的预设区域空间,进而根据预设区域空间内其他预设区域设备的运行参数,确定预设故障数据的预设根因数据,实现了在空间维度确定预设故障数据与预设根因数据之间的关联关系和预设关联概率的确定。
作为一种可选的示例,通过标注参数进行空间维度的关联,基本方法为:在对应的故障(如故障数据),通过处理获得到根因数据后,系统分析根因数据的产生的物理空间的位置,与故障产生的物理空间的位置,然后进行相同类型推理关联。
例如,一个设备接口故障,分析出根因是所在机房的电压不足导致,那么即分析此机房涉及的所有设备的接口,与此机房的电源建立关联关系。
可选地,关联度(即预设关联概率)可以采用与空间位置相关的概率函数(如洛伦兹线型函数
Figure BDA0004021225630000111
)进行描述,其中,x为与关联数据的距离值。
需要说明的是,与空间信息无关的故障,视为关联概率为0即可。
可选地,当一个故障被定位后,所有空间位置信息的数据,就可以被本系统自动关联和标注,即系统分析(提取)出空间位置信息后,根据概率计算工具计算超过关联门限的信息,都可作为此故障的关联数据,关联的概率值就是计算得到的概率值。而且后续人工也只需进行这几个参数值和关联函数的选择,无需大量人工处理。
作为一种可选的实施例,在通过预设关联关系模型对目标故障数据进行分析,基本方法为:确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,方法还包括:获取预设故障数据指示的故障设备的预设参数数据;将预设参数数据作为预设故障数据的预设根因数据;在预设阈值库中确定与预设参数数据匹配的目标参数阈值,其中,预设阈值库中预先设有多个预设参数阈值,和每个预设参数阈值对应的预设关联概率;确定目标参数阈值对应的预设关联概率。
本发明上述实施例,可以获取故障设备的预设参数数据,然后将预设参数数据与预设参数阈值进行匹配,若预设参数数据属于第一预设参数阈值,则确定该第一预设参数阈值对应的第一预设关联概率为预设参数数据与预设故障参数的预设关联概率;若预设参数数据属于第二预设参数阈值,则确定该第二预设参数阈值对应的第二预设关联概率为预设参数数据与预设故障参数的预设关联概率。
作为一种可选的实施例,通过标注参数进行物理维度的关联,在对应的故障,通过处理获得到根因数据后,系统自动分析此数据对一个的厂商、产品、版本、物理传输特性等物理特性,并把此数据做同理性分析。
例如,如业务误码超限,定位为根因数据表示接口的误码超限,则可以标注所有相关厂商对应的同批次产品,或使用相同接口元器件的产品,或相同版本的产品,都可以建立与故障的关联信息。而关联概率计算,也可以参考使用渐进函数和关联门限。这样当一个故障定位后,本系统就可以根据根因的物理维度的信息自动关联和标注,即根据概率计算工具计算超过关联门限的信息,都可作为此故障的关联数据,关联的概率值就是计算得到的概率值。而且后续人工也只需进行这几个参数值和渐进函数的选择,无需大量人工处理。
可选地,当一对关联关系和关联度是多种方法都产生后,最终的关联度可以考虑使用各种方法的权重进行合并,而各种方法的权重值,系统支持预设和调整。
作为一种可选的实施例,在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表之后,方法还包括:接收目标故障数据的故障解除报告,其中,故障解除报告中携带有目标故障数据的目标根因数据;依据将目标故障数据和关联的目标根因数据,调整预设关联关系模型。
本发明上述实施例,故障解除报告中携带有目标故障数据的目标根因数据,根据反馈的故障解除报告可以验证目标根因数据与目标故障数据之间的目标关联关系,进而根据验证结果调整预设关联关系模型,可以使预设关联关系模型能够在后续使用过程中,更加准确地确定目标故障数据关联的目标根因数据。
可选地,通过统计多个故障解除报告,可以总结目标故障数据和目标根因数据的目标关联概率,进而基于多个故障解除报告中的目标故障数据和目标根因数据对预设关联关系模型进行调整,可以实现对目标关联概率的准确评估。
作为一种可选的实施例,依据目标关联概率对至少一个目标根因数据进行排列,生成故障根因表包括:将至少一个目标根因数据按照目标关联概率由高到低的顺序进行排列,生成故障根因表。
本发明上述实施例,将至少一个目标根因数据按照目标关联概率由高到低的顺序进行排列,生成故障根因表,可以将概率最高的目标根因数据放在故障根因表的前端,进而根据故障根因表排除目标故障数据指示的故障,可以快速实现故障的排除。
本发明还提供了一种优选实施例,该优选实施例提供了一种网络故障处理的关联处理方案。
本发明提供的技术方案,在收集网络全量信息基础上,在系统的完全信息集合内,对系统的配置、状态、流量、性能、告警等信息进行关联性判定和逻辑处理。
本发明提供的技术方案,从系统全数据的角度通过数据关联去分析故障的根因,通过尽快找到故障根因,提高故障定位效率;同时通过数据关联信息对应的操作建议和关联度量,分析故障处理的操作,给出运维操作的步骤建议,从而提升系统运维的效率;进而提升网络运维的自动化能力,提升系统自愈能力,降低维护难度和维护成本。达到良好的网络智能运维功能。
本发明提供的技术方案,可对于系统全数据,通过数据定义,建立数据(如故障数据和根因数据)的关联关系;通过关联关系的概率度量(即关联概率),建立数据的泛因果关系数据模型(如预设关联关系模型);通过专家AI模块对系统数据的分析,优化关联关系的概率度量(如关联概率),分析故障的直接操作建议(如故障解除方案);通过结果反馈分析,优化数据模型(如预设关联关系模型)的数据定义和数据关联关系(如故障数据和根因数据的关联关系),同时优化操作策略;即通过关联数据模型(如预设关联关系模型),和系统闭环反馈处理的方法,形成系统的迭代优化和演进。
本发明提供的技术方案,可以应用在IP SDN网络运营和运维;通信网络系统的运营和运维;IT网络系统的运行和运维;以及数字化系统的运行和运维。
可选地,在IP SDN网络中,在数据定义模块,对于关联数据的根因数据,定义为路由器硬件接口故障,而关联的数据(即故障数据),选择直接体现给运维的数据,如骨干中继故障、设备硬件故障、单端中继故障、VPN中继故障。即被关联数据,应为与源数据为直接因果关系,可以参考MIB告警中的关联告警关系。
图3是根据本发明实施例的一种数据关联硬件信息的示意图,如图3所示,可以先定义源数据:硬件接口down,接口发送错误,如流量超限。
可选地,对于根因数据“硬件接口down”,则可以关联接口协议down、接口流量丢包、中继链路down等关联数据(如第一结果数据,或故障数据)。而当接口协议down作为下一层的源数据(如第二根因数据)时,可以关联SRv6接口故障,VPN接口故障,骨干中继故障等关联数据(如第二结果数据,或故障数据)。
可选地,对于根因数据“接口发送错误”,则可以关联接口误码,接口流量丢包等关联数据(如第一结果数据,或故障数据)。而当“接口误码”作为下一层的源数据(如第二根因数据)时,可以关联VPN业务质差等故障信息(如第二结果数据,或故障数据)。
图4是根据本发明实施例的一种数据关联配置信息的示意图,如图4所示,先定义源数据:配置不全,配置错误。
可选地,对于配置错误根因的故障,也可以由本系统的数据关联方法进行处理。如对于根因数据配置错误,可能关联配置协议错误、配置参数错误、配置版本不匹配、以及配置原子能力转换错误;而配置参数错误,可以关联业务不通,可以关联SR Policy的转发行为不符合预期;而Policy行为不符合预期,可以关联到Policy带宽错误、Policy时延错误、Policy主备路径风险区分错误等直观表现出来的故障信息。
可选地,在数据关联模块,对所有关联的关系,进行基于概率的关联度表达。即使用概率值,把源数据(如根因数据)与关联数据(如故障数据)之间的关联度(如关联概率),分为必然、可能(可考虑设置百分比)、小概率、不可能四个等级。在初始化关联概率值时,可以参考之前的运维经验值。运维经验在本发明系统中,来源于专家AI库模块。
可选地,如对物理硬件接口故障,则必然会导致接口协议down;如对于成员口的故障,可能导致聚合口的流量拥塞;如接口的误码,小概率会导致检测协议报down;如读取设备温度,不可能导致设备电源故障。
可选地,对于关联度(如关联概率)的定义,分为正向定义和反向定义。
可选地,对于关联度(如关联概率)正向定义,可采用先验概率,如源数据(或根因数据)A,关联数据(或故障数据)B和关联数据(或故障数据)C,可以依据源数据(或根根因数据)发生条件下,关联数据(或故障数据)B和C发生的概率,直接定义A与B的关联概率P(B|A),以及A与C的关联概率P(C|A)。
可选地,对于可能性关系的源数据(或根因数据)和被关联数据(或故障数据)的概率值的初始值定义举例:如5个成员口,聚合为一个接口时,则每个成员口故障时,能导致此聚合口流量拥塞的概率为1/5=20%。
可选地,对于关联度反向定义,可采用后验概率,可采用贝叶斯公式:如源数据空间Ω,关联数据B,则:
Figure BDA0004021225630000141
其中,对任一事件B,只要P(B)>0,就有:
Figure BDA0004021225630000142
可选地,通过源数据(或根因数据)与关联数据(或故障数据)的关联关系定义,以及对关联关系的正向和反向的基于概率的关联度度量,构建系统的关联森林数据模型(即预设关联关系模型)。
可选地,同时对于每一个节点的数据,通过专家AI库模块,可以定义当此节点的数据错误时,需要进行的相关直接操作。
可选地,当用户需要处理一个故障时,即在故障分析模块,对需要处理的故障进行上溯根因分析时,则把这个故障信息作为一个关联数据(或故障数据)A,从此关联数据(或故障数据),基于概率的关联度量值(即关联概率),分析所有可能的相关源数据(或根因数据)节点,分析的方式为:根据系统采集的源数据(或根因数据)值/状态,排序对应源数据(或根因数据)是否是故障的原因。若是源数据(或根因数据)的状态或值不明确,可以根据被关联数据(或故障数据)针对此源数据(或根因数据)对应的操作,获取或确认源数据(或根因数据)的状态和值。而若是故障数据的源数据(或根因数据)也是故障状态,或值超限时,则把对应的源数据(或根因数据),作为下一个被关联数据(或故障数据)B,继续分析此被关联数据(或故障数据)B对应的源数据(或根因数据)的故障状态和故障值。直到最后分析出所有可能的根因数据。
可选地,最后分析出根因后,对这些状态为错误的根因数据,根据关联度的概率值(即关联概率)排序,按照排序后的源数据(或根因数据)节点对应的操作建议(即故障解除方案),分析相关的操作策略和建议信息。即给出故障的可能原因,并按基于概率(即关联概率)的可能性进行排序,以及故障解除方案。
可选地,故障解除方案可以使用用户习惯的故障维护方式,列出可以处理的相关操作,在故障处理模块,根据相应的建议,一步一步执行相关操作方案;一个方案不行,可以再执行下一个方案。
可选地,故障(或故障数据)A的源数据(或根因数据)为B、C、D,C的源数据(或根因数据)为E、F。判定B、C、D状态时,B为故障,C未知,D良好。则对B、C进行概率排序,当C对于A的方向概率(即关联概率)更大时,系统执行判定C的数据采集操作,通过数据采集模块,获取C的状态。当C的状态错误时,则再判定C的故障状态E、F。当E状态故障和F状态正常时。可以基于E和B的操作建议,给出故障解决方案。并依据反向概率度量值,优先推荐进行E故障的相关处理操作。
可选地,在故障处理的每一步操作过程中,故障判定还可以基于关联度中的不可能关系(概率值为0),优化故障根因分析。如通过连通性检查接口,从而对此步处理的关联数据对应的所有源数据进行判定,如故障C,关联源数据(或故障数据)A和源数据(或根因数据)B,在处理C时对接口连通性进行了检查,发现接口是up的,而接口连通性正常的数据,作为源数据(或根因数据)时,与数据A的关联性是0,即接口连通性正常作为源数据(或根因数据)与数据A产生关联的可能性为0。则故障C就只需再上溯到源数据(或根因数据)B进行相关分析和处理,不必再对源数据(或根因数据)A进行分析和处理。
可选地,对于专家AI库模块,可通过整理网络维护案例,维护问题单信息,系统特性逻辑分析,专家维护案例,进行专家经验库的建设和定期更新。再根据专家经验库,定期对关联数据(或故障数据)的(正向)关联概率值(如关联概率)进行优化调整。同时可通过对系统数据的AI分析,如通过同时(同一时段)出现的频率,计算关联数据(即故障数据和根因数据)的关联概率值(即关联概率),并参考AI计算的概率值,对(反向)关联数据(即故障数据和根因数据)使用的概率值(即关联概率)进行优化(调整)。
可选地,每次故障处理成功后,在结果反馈模块,进行系统根因分析,梳理所有的操作步骤的必要性和操作流程的效率,必要的,调高关联概率值(即关联概率);非必要的,降低关联概率值(即关联概率);冗余的操作,则进行优化整合,从而优化数据定义和数据关联的关联森林数据模型(即预设关联关系模型),以及故障处理操作的效率。
可选地,在如上述的闭环系统,即可基于数据关联的数据模型(即预设关联关系模型)和操作优化,从一开始系统根据初始定义的关联森林模型(即预设关联关系模型),根据操作建议,手动处理故障,到根据处理结果,优化关联森林模型(即预设关联关系模型),优化操作方案(如故障解除方案);演进为系统根据优化后的关联森林模型(即预设关联关系模型)和操作方案,对部分确认和低风险的操作,由SDN系统自动执行,从而实现部分的自动检测、自动判定和自动故障恢复;当此系统在维护中持续迭代后,最后可以实现系统的故障自动定界定位,实现故障处理的自动检测和恢复,从而实现IP SDN网络的运维的自愈演进。
可选地,本发明对于相关故障告警信息,进行系统影响分析时,如作网络仿真、网络规划、网络服务、网络风险预测等,则把此故障信息作为一个故障数据,从此故障数据出发,基于概率的关联度量值(即关联概率),分析此故障数据对应的根因数据,并可以依次层层分析所涉及的所有根因数据,从而得到此故障的可能影响,以支撑故障对系统的影响分析,支撑系统的优化方案分析,支撑网络系统的迭代演进。
本发明提供的技术方案,可以提升系统运维效率;降低系统的运维成本;提升系统自愈的能力;支撑系统演进。
本发明提供的技术方案,根据基于概率的故障数据的关联性(可能性)根因分析,生成系统数据的关联森林数学模型(即预设关联关系模型),在应用此数学模型进行系统分析和故障处理,相对于现有技术,将具有以下优点:
1.通过数据关联,更清晰的定位问题的根因;而且关联森林数据模型(即预设关联关系模型)可以按必要性为基础建立关联关系后,再日积月累方式按需进行迭代优化。
2.通过结果反馈和专家分析,在系统运行生命周期中,在必要时,不断迭代优化数据关联关系。
3.通过关联森林数据模型(即预设关联关系模型),使得系统的关联关系更为清晰全面,同时应用对应模型节点中对应的处理操作信息,能提升系统运维能力;
4.通过多维度的方法,综合获得系统数据的关联关系,创建关联森林数据模型(即预设关联关系模型),即可提升数据关联的自动化水平,也可使得获得的关联森林数据模型(即预设关联关系模型)对系统的反映更为全面和真实。
5.应用基于概率的关联森林模型(即预设关联关系模型),可以作为系统故障风险分析的一种策略和途径。
根据本发明实施例,还提供了一种故障处理装置实施例,需要说明的是,该故障处理装置可以用于执行本发明实施例中的故障处理方法,本发明实施例中的故障处理方法可以在该故障处理装置中执行。
图5是根据本发明实施例的一种故障处理装置的示意图,如图5所示,该装置可以包括:获取模块52,用于获取目标网络系统的目标故障数据;分析模块54,用于通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,预设关联关系模型为使用多组数据通过机器学习训练出的,多组数据中的每组数据均包括:产生故障的预设故障数据,预设故障数据关联的预设根因数据,以及用于表示预设故障数据与预设根因数据之间关联关系的预设关联概率;第一生成模块56,用于依据目标关联概率对至少一个目标根因数据进行排列,生成故障根因表;第二生成模块58,用于在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表。
需要说明的是,该实施例中的获取模块52可以用于执行本申请实施例中的步骤S102,该实施例中的分析模块54可以用于执行本申请实施例中的步骤S104,该实施例中的第一生成模块56可以用于执行本申请实施例中的步骤S106,该实施例中的第二生成模块58可以用于执行本申请实施例中的步骤S108。上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。
在本发明实施例中,获取目标网络系统的目标故障数据;通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,预设关联关系模型为使用多组数据通过机器学习训练出的,多组数据中的每组数据均包括:产生故障的预设故障数据,预设故障数据关联的预设根因数据,以及用于表示预设故障数据与预设根因数据之间关联关系的预设关联概率;依据目标关联概率对至少一个目标根因数据进行排列,生成故障根因表;在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表,从而实现了根据数据之间的关联关系进行故障处理的技术效果,进而解决了现有技术无法根据数据之间的关联关系进行故障处理技术问题。
作为一种可选的实施例,装置还包括:第一获取子模块,用于在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预先标定的第一根因数据;第二获取子模块,用于获取目标网络系统执行第一根因数据产生的第一结果数据,和产生第一结果数据的第一关联概率;第三获取子模块,用于将第一结果数据作为第二根因数据,获取目标网络系统执行第二根因数据产生的第二结果数据,和产生第二结果数据的第二关联概率;第一确定子模块,用于在第二结果数据为预设故障数据的情况下,确定第一根因数据为预设故障数据的预设根因数据;第二确定子模块,用于根据第一关联概率和第二关联概率,确定预设根因数据的预设关联概率。
作为一种可选的实施例,装置还包括:第四获取子模块,用于在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预设故障数据的预设故障时间;第五获取子模块,用于以预设故障时间为起点,获取目标网络系统在预设故障时间之前的预设时间周期内产生的至少一个上游数据;第三确定子模块,用于在至少一个上游数据中确定预设故障数据的预设根因数据;第四确定子模块,用于将预设根因数据在至少一个上游数据中出现的频率数,确定预设根因数据的预设关联概率。
作为一种可选的实施例,装置还包括:第六获取子模块,用于在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预设故障数据指示的故障设备的预设位置信息;第五确定子模块,用于确定预设位置信息所在预设区域空间内的至少一个预设区域数据,其中,预设区域数据用于表示预设区域空间内至少一个预设区域设备对应的运行参数;第六确定子模块,用于在至少一个预设区域数据中确定预设故障数据的预设根因数据;第七确定子模块,用于根据预设根因数据对应的预设区域设备与故障设备之间的距离值,确定预设根因数据的预设关联概率。
作为一种可选的实施例,装置还包括:第七获取子模块,用于在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预设故障数据指示的故障设备的预设参数数据;第八确定子模块,用于将预设参数数据作为预设故障数据的预设根因数据;第九确定子模块,用于在预设阈值库中确定与预设参数数据匹配的目标参数阈值,其中,预设阈值库中预先设有多个预设参数阈值,和每个预设参数阈值对应的预设关联概率;第十确定子模块,用于确定目标参数阈值对应的预设关联概率。
作为一种可选的实施例,装置还包括:接收子模块,用于在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表之后,接收目标故障数据的故障解除报告,其中,故障解除报告中携带有目标故障数据的目标根因数据;调整子模块,用于依据将目标故障数据和关联的目标根因数据,调整预设关联关系模型。
作为一种可选的实施例,第一生成模块包括:生成子模块,用于将至少一个目标根因数据按照目标关联概率由高到低的顺序进行排列,生成故障根因表。
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行故障处理方法中以下步骤的程序代码:获取目标网络系统的目标故障数据;通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,预设关联关系模型为使用多组数据通过机器学习训练出的,多组数据中的每组数据均包括:产生故障的预设故障数据,预设故障数据关联的预设根因数据,以及用于表示预设故障数据与预设根因数据之间关联关系的预设关联概率;依据目标关联概率对至少一个目标根因数据进行排列,生成故障根因表;在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表。
可选地,图6是根据本发明实施例的一种计算机终端的结构框图。如图所示,该计算机终端60可以包括:一个或多个(图中仅示出一个)处理器62、和存储器64。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的故障处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的故障处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端60。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标网络系统的目标故障数据;通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,预设关联关系模型为使用多组数据通过机器学习训练出的,多组数据中的每组数据均包括:产生故障的预设故障数据,预设故障数据关联的预设根因数据,以及用于表示预设故障数据与预设根因数据之间关联关系的预设关联概率;依据目标关联概率对至少一个目标根因数据进行排列,生成故障根因表;在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表。
可选的,上述处理器还可以执行如下步骤的程序代码:在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预先标定的第一根因数据;获取目标网络系统执行第一根因数据产生的第一结果数据,和产生第一结果数据的第一关联概率;将第一结果数据作为第二根因数据,获取目标网络系统执行第二根因数据产生的第二结果数据,和产生第二结果数据的第二关联概率;在第二结果数据为预设故障数据的情况下,确定第一根因数据为预设故障数据的预设根因数据;根据第一关联概率和第二关联概率,确定预设根因数据的预设关联概率。
可选的,上述处理器还可以执行如下步骤的程序代码:在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预设故障数据的预设故障时间;以预设故障时间为起点,获取目标网络系统在预设故障时间之前的预设时间周期内产生的至少一个上游数据;在至少一个上游数据中确定预设故障数据的预设根因数据;将预设根因数据在至少一个上游数据中出现的频率数,确定预设根因数据的预设关联概率。
可选的,上述处理器还可以执行如下步骤的程序代码:在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预设故障数据指示的故障设备的预设位置信息;确定预设位置信息所在预设区域空间内的至少一个预设区域数据,其中,预设区域数据用于表示预设区域空间内至少一个预设区域设备对应的运行参数;在至少一个预设区域数据中确定预设故障数据的预设根因数据;根据预设根因数据对应的预设区域设备与故障设备之间的距离值,确定预设根因数据的预设关联概率。
可选的,上述处理器还可以执行如下步骤的程序代码:在通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预设故障数据指示的故障设备的预设参数数据;将预设参数数据作为预设故障数据的预设根因数据;在预设阈值库中确定与预设参数数据匹配的目标参数阈值,其中,预设阈值库中预先设有多个预设参数阈值,和每个预设参数阈值对应的预设关联概率;确定目标参数阈值对应的预设关联概率。
可选的,上述处理器还可以执行如下步骤的程序代码:在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表之后,接收目标故障数据的故障解除报告,其中,故障解除报告中携带有目标故障数据的目标根因数据;依据将目标故障数据和关联的目标根因数据,调整预设关联关系模型。
可选的,上述处理器还可以执行如下步骤的程序代码:将至少一个目标根因数据按照目标关联概率由高到低的顺序进行排列,生成故障根因表。
采用本发明实施例,提供了一种故障处理方案。通过获取目标网络系统的目标故障数据;通过预设关联关系模型对目标故障数据进行分析,确定目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,预设关联关系模型为使用多组数据通过机器学习训练出的,多组数据中的每组数据均包括:产生故障的预设故障数据,预设故障数据关联的预设根因数据,以及用于表示预设故障数据与预设根因数据之间关联关系的预设关联概率;依据目标关联概率对至少一个目标根因数据进行排列,生成故障根因表;在预设故障处理库中查询故障根因表中每个目标根因数据对应的故障解除方案,生成故障解除表,从而实现了根据数据之间的关联关系进行故障处理的技术效果,进而解决了现有技术无法根据数据之间的关联关系进行故障处理技术问题。
本领域普通技术人员可以理解,图所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternetDevices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,计算机终端60还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种非易失性存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例所提供的故障处理方法所执行的程序代码。
可选地,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:获取目标网络系统的目标故障数据;通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,所述预设关联关系模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:产生故障的预设故障数据,所述预设故障数据关联的预设根因数据,以及用于表示所述预设故障数据与所述预设根因数据之间关联关系的预设关联概率;依据所述目标关联概率对至少一个所述目标根因数据进行排列,生成故障根因表;在预设故障处理库中查询所述故障根因表中每个所述目标根因数据对应的故障解除方案,生成故障解除表。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预先标定的第一根因数据;获取所述目标网络系统执行所述第一根因数据产生的第一结果数据,和产生所述第一结果数据的第一关联概率;将所述第一结果数据作为第二根因数据,获取所述目标网络系统执行所述第二根因数据产生的第二结果数据,和产生所述第二结果数据的第二关联概率;在所述第二结果数据为预设故障数据的情况下,确定所述第一根因数据为所述预设故障数据的预设根因数据;根据所述第一关联概率和所述第二关联概率,确定所述预设根因数据的预设关联概率。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预设故障数据的预设故障时间;以所述预设故障时间为起点,获取目标网络系统在所述预设故障时间之前的预设时间周期内产生的至少一个上游数据;在至少一个所述上游数据中确定所述预设故障数据的预设根因数据;将所述预设根因数据在至少一个所述上游数据中出现的频率数,确定所述预设根因数据的预设关联概率。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预设故障数据指示的故障设备的预设位置信息;确定所述预设位置信息所在预设区域空间内的至少一个预设区域数据,其中,所述预设区域数据用于表示所述预设区域空间内至少一个所述预设区域设备对应的运行参数;在至少一个所述预设区域数据中确定所述预设故障数据的预设根因数据;根据所述预设根因数据对应的预设区域设备与所述故障设备之间的距离值,确定所述预设根因数据的预设关联概率。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,获取预设故障数据指示的故障设备的预设参数数据;将所述预设参数数据作为所述预设故障数据的预设根因数据;在预设阈值库中确定与所述预设参数数据匹配的目标参数阈值,其中,所述预设阈值库中预先设有多个预设参数阈值,和每个所述预设参数阈值对应的预设关联概率;确定所述目标参数阈值对应的所述预设关联概率。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在预设故障处理库中查询所述故障根因表中每个所述目标根因数据对应的故障解除方案,生成故障解除表之后,接收所述目标故障数据的故障解除报告,其中,所述故障解除报告中携带有所述目标故障数据的目标根因数据;依据将所述目标故障数据和关联的所述目标根因数据,调整所述预设关联关系模型。
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:将所述至少一个所述目标根因数据按照所述目标关联概率由高到低的顺序进行排列,生成所述故障根因表。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种故障处理方法,其特征在于,包括:
获取目标网络系统的目标故障数据;
通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,所述预设关联关系模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:产生故障的预设故障数据,所述预设故障数据关联的预设根因数据,以及用于表示所述预设故障数据与所述预设根因数据之间关联关系的预设关联概率;
依据所述目标关联概率对至少一个所述目标根因数据进行排列,生成故障根因表;
在预设故障处理库中查询所述故障根因表中每个所述目标根因数据对应的故障解除方案,生成故障解除表。
2.根据权利要求1所述的方法,其特征在于,在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,所述方法还包括:
获取预先标定的第一根因数据;
获取所述目标网络系统执行所述第一根因数据产生的第一结果数据,和产生所述第一结果数据的第一关联概率;
将所述第一结果数据作为第二根因数据,获取所述目标网络系统执行所述第二根因数据产生的第二结果数据,和产生所述第二结果数据的第二关联概率;
在所述第二结果数据为预设故障数据的情况下,确定所述第一根因数据为所述预设故障数据的预设根因数据;
根据所述第一关联概率和所述第二关联概率,确定所述预设根因数据的预设关联概率。
3.根据权利要求1所述的方法,其特征在于,在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,所述方法还包括:
获取预设故障数据的预设故障时间;
以所述预设故障时间为起点,获取目标网络系统在所述预设故障时间之前的预设时间周期内产生的至少一个上游数据;
在至少一个所述上游数据中确定所述预设故障数据的预设根因数据;
将所述预设根因数据在至少一个所述上游数据中出现的频率数,确定所述预设根因数据的预设关联概率。
4.根据权利要求1所述的方法,其特征在于,在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,所述方法还包括:
获取预设故障数据指示的故障设备的预设位置信息;
确定所述预设位置信息所在预设区域空间内的至少一个预设区域数据,其中,所述预设区域数据用于表示所述预设区域空间内至少一个所述预设区域设备对应的运行参数;
在至少一个所述预设区域数据中确定所述预设故障数据的预设根因数据;
根据所述预设根因数据对应的预设区域设备与所述故障设备之间的距离值,确定所述预设根因数据的预设关联概率。
5.根据权利要求1所述的方法,其特征在于,在通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率之前,所述方法还包括:
获取预设故障数据指示的故障设备的预设参数数据;
将所述预设参数数据作为所述预设故障数据的预设根因数据;
在预设阈值库中确定与所述预设参数数据匹配的目标参数阈值,其中,所述预设阈值库中预先设有多个预设参数阈值,和每个所述预设参数阈值对应的预设关联概率;
确定所述目标参数阈值对应的所述预设关联概率。
6.根据权利要求1所述的方法,其特征在于,在预设故障处理库中查询所述故障根因表中每个所述目标根因数据对应的故障解除方案,生成故障解除表之后,所述方法还包括:
接收所述目标故障数据的故障解除报告,其中,所述故障解除报告中携带有所述目标故障数据的目标根因数据;
依据将所述目标故障数据和关联的所述目标根因数据,调整所述预设关联关系模型。
7.根据权利要求1-6中任一项所述的方法,其特征在于,依据所述目标关联概率对至少一个目标根因数据进行排列,生成故障根因表包括:
将所述至少一个所述目标根因数据按照所述目标关联概率由高到低的顺序进行排列,生成所述故障根因表。
8.一种故障处理装置,其特征在于,包括:
获取模块,用于获取目标网络系统的目标故障数据;
分析模块,用于通过预设关联关系模型对所述目标故障数据进行分析,确定所述目标故障数据的至少一个目标根因数据和每个目标根因数据的目标关联概率,其中,所述预设关联关系模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:产生故障的预设故障数据,所述预设故障数据关联的预设根因数据,以及用于表示所述预设故障数据与所述预设根因数据之间关联关系的预设关联概率;
第一生成模块,用于依据所述目标关联概率对至少一个所述目标根因数据进行排列,生成故障根因表;
第二生成模块,用于在预设故障处理库中查询所述故障根因表中每个所述目标根因数据对应的故障解除方案,生成故障解除表。
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述故障处理方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的故障处理方法。
CN202211686107.7A 2022-12-27 2022-12-27 故障处理方法、装置、非易失性存储介质及电子设备 Pending CN116016114A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211686107.7A CN116016114A (zh) 2022-12-27 2022-12-27 故障处理方法、装置、非易失性存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211686107.7A CN116016114A (zh) 2022-12-27 2022-12-27 故障处理方法、装置、非易失性存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN116016114A true CN116016114A (zh) 2023-04-25

Family

ID=86031870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211686107.7A Pending CN116016114A (zh) 2022-12-27 2022-12-27 故障处理方法、装置、非易失性存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116016114A (zh)

Similar Documents

Publication Publication Date Title
US11657309B2 (en) Behavior analysis and visualization for a computer infrastructure
CN109787817B (zh) 网络故障诊断方法、装置和计算机可读存储介质
US11348023B2 (en) Identifying locations and causes of network faults
CN110493025B (zh) 一种基于多层有向图的故障根因诊断的方法及装置
US11294754B2 (en) System and method for contextual event sequence analysis
CN109417495A (zh) 分组代理中的异常检测和预测
US11032149B2 (en) Classification and relationship correlation learning engine for the automated management of complex and distributed networks
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN114785666B (zh) 一种网络故障排查方法与系统
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
WO2022134911A1 (zh) 诊断方法、装置、终端及存储介质
CN114430365B (zh) 故障根因分析方法、装置、电子设备和存储介质
CN111385106B (zh) 一种用于故障根因的识别方法、装置和设备
KR20200128144A (ko) 네트워크 장치의 상태를 결정하는 방법 및 장치
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN117336228A (zh) 一种基于机器学习的igp仿真推荐方法、装置及介质
CN116016114A (zh) 故障处理方法、装置、非易失性存储介质及电子设备
CN117172093A (zh) 基于机器学习的Linux系统内核配置的策略优化方法及装置
CN111277444B (zh) 一种交换机故障预警方法和装置
CN112365162B (zh) 一种基于事故致因网络的铁路运行风险控制方法
US20230336409A1 (en) Combination rules creation device, method and program
CN112800102A (zh) 告警相关性计算方法、装置及计算设备
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质
WO2024066346A1 (zh) 一种告警处理方法、装置、存储介质及电子装置
US20230306318A1 (en) System and method for outage forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination