CN111638989B - 故障诊断方法、装置、存储介质及设备 - Google Patents
故障诊断方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN111638989B CN111638989B CN202010296933.5A CN202010296933A CN111638989B CN 111638989 B CN111638989 B CN 111638989B CN 202010296933 A CN202010296933 A CN 202010296933A CN 111638989 B CN111638989 B CN 111638989B
- Authority
- CN
- China
- Prior art keywords
- alarm
- alarms
- fault
- score
- faults
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003745 diagnosis Methods 0.000 title claims abstract description 39
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011033 desalting Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0787—Storage of error reports, e.g. persistent data storage, storage using memory protection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Alarm Systems (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本申请实施例涉及数据处理技术领域,具体涉及一种故障诊断方法、装置、存储介质及设备,所述故障诊断方法包括:获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度;根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。本方法通过综合计算告警的稀缺度、状态以及与故障之间的预设得分得出故障总得分,可以实现在没有大量样本的情况下,准确地对故障进行诊断。
Description
技术领域
本申请实施例涉及数据处理技术领域,具体而言,涉及一种故障诊断方法、装置、存储介质及设备。
背景技术
在软件系统运行过程中,一个故障发生时会引起若干个相关的告警,在实际情况中,相关人员会接到若干告警,然后需要根据所产生的告警查找产生告警的原因并作出相应的处理。
在收集到告警后,如果依赖人工去进行分析、处理将会严重依赖处理人员的专业知识及对系统的熟悉度,另外,在处理过程中也会耗费比较长时间去做告警分析,严重影响故障的处理进度。
现有的一些相关技术中的故障诊断存在较多缺陷,如:1、在投入使用前需要收集大量的故障案例,对于普通软件系统来说,大量的故障案例是比较难收集到的。2、收集数据后需要构建相应的分类模型,由于上一步条件的限制可能导致分类模型的准确率和召回率比较低,从而直接影响后续故障的判断。3、故障分析模型比较复杂,这也可能导致故障诊断系统的准确性较低。
发明内容
本申请实施例提供一种故障诊断方法、装置、设备及存储介质,旨在在没有大量样本的情况下,如何比较准确的定位故障。
本申请实施例第一方面提供一种故障诊断方法,所述方法包括:
获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;
根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度;
根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。
可选地,在获得历史告警记录之后,所述方法还包括:
对所述历史告警记录包括的多个告警进行聚类,得到多个告警组;
根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
根据告警与故障之间预设的关联得分,确定所述多个告警组各自与故障之间的组关联得分;
所述确定各个故障的总得分,包括:
根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间的组关联得分,确定各个故障的总得分。
可选地,在对所述历史告警记录包括的多个告警进行聚类,得到多个告警组之后,所述方法还包括:
在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或
根据告警组编辑操作,对所述多个告警组进行更新。
可选地,根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,包括:
针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;
根据所述多个告警各自的权重,以及告警与故障之间预设的关联得分,确定各个故障的相关度得分;
根据所述多个告警各自的稀缺度和所述各个故障的相关度分,确定各个故障的总得分。
可选地,告警与故障之间预设的关联得分是按照以下步骤预先设置的:
根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述关联得分。
可选地,所述多个告警中任一告警的稀缺度是按照以下公式确定的:
其中,idfi表示所述多个告警中第i个告警的稀缺度,a表示故障的总数,b表示第i个告警所关联的故障的数量。
可选地,所述方法还包括:
按照得分从高到低的顺序,对所述各个故障的总得分进行排序;
将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
可选地,获得历史告警记录,包括:
按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
本申请实施例第二方面提供一种故障诊断装置,所述装置包括:
数据获取模块,被配置为获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;
稀缺度确定模块,被配置为根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度;
总得分计算模块,被配置为根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。
可选地,所述装置还包括:
分组模块,对所述历史告警记录包括的多个告警进行聚类,得到多个告警组;
所述稀缺度确定模块包括组稀缺度确定模块,
组稀缺度确定模块,被配置为根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
组状态确定模块,被配置为根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
所述总得分计算模块,包括:
总得分计算子模块,被配置为根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间预设的组关联得分,确定各个故障的总得分。
可选地,所述装置还包括:
告警组更新模块,被配置为在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或根据告警组编辑操作,对所述多个告警组进行更新。
可选地,所述装置还包括:
状态值确定模块,被配置为针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;
相关度得分计算模块,被配置为根据所述多个告警各自的权重,以及告警与故障之间预设的关联得分,确定各个故障的相关度得分;
总得分计算模块,被配置为根据所述多个告警各自的稀缺度和所述各个故障的相关度得分,确定各个故障的总得分。
可选地,所述装置还包括:
得分预设模块,被配置为根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述预设关联得分或预设组关联得分。
可选地,所述稀缺度确定模块被配置为所述多个告警中任一告警的稀缺度是按照以下公式确定的:
其中,idfi表示所述多个告警中第i个告警的稀缺度,a表示故障的总数,b表示第i个告警所关联的故障的数量。
可选地,所述装置还包括:
排序模块,被配置为按照得分从高到低的顺序,对所述各个故障的总得分进行排序;
输出模块,被配置为将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
可选地,所述数据获取模块被配置为按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
采用本申请提供的故障诊断方法,通过获取历史告警记录,并对历史告警进行状态标记,以确定该告警是否发生,对发生的告警进行稀缺度计算,由于稀缺度是根据故障总数以及每个告警所关联的故障数进行计算的,因此进行每个告警的稀缺度计算可以实现突出关键告警,有利于提升诊断的准确率;预设的关联得分为告警与故障之间所对应的权重,表征某故障引发对应的某告警发生的概率;通过综合计算告警的稀缺度、状态以及与故障之间的预设得分所得出的故障总得分,可以准确的表示出发生某告警时某个故障产生的可能性,实现量化得分,提高诊断的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的故障诊断方法的流程图;
图2是本申请另一实施例提出的故障诊断方法的流程图;
图3是本申请一实施例提出的故障诊断方法获取历史告警记录的示意图;
图4是本申请一实施例提出的故障诊断装置的示意图
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请一实施例提出的故障诊断方法的流程图。如图1所示,该方法包括以下步骤:
在步骤S1中,获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生。
在本实施例中,历史告警记录是由告警检测中心检测并形成的记录,如采用天网告警对设备所发生的告警进行检测并形成记录,所述历史告警记录一般指的是过去的一个连续的时间段内所形成的告警记录。
每个历史告警记录中的告警为携带状态标记的告警,状态标记表征告警是否发生,具体地,即该状态标记标识某个发生的告警是否可能由某个故障导致的。在本申请一实施例中,分别有五个告警和3个故障,具体如下:
告警A:二维码微信支付成功率下降;
告警B:二维码微信支付成功量下降;
告警C:永丰机房tp99异常;
告警D:微信支付错误码TRADEERROR飙升;
告警E:录入但是没告警(以表1为例,指故障1可能导致告警E发生,但是本次故障1发生,并未导致产生告警E);
故障1:C扫B下游微信故障;
故障2:二维码产品内部异常;
故障3:永丰机房故障;
针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;每个告警的状态标记如表1所示,具体地,将第一值的取值设为1,状态标记的取值范围为{0,1},即状态值为1表示出现告警,状态值为0表示未告警,以表中为例,出现告警A:二维码微信支付成功率下降时,可能是有故障1:C扫B下游微信故障或者故障2:二维码产品内部异常引起的,或者是由故障1和故障2共同引起的,而不可能是由故障3引起的,同理,若发生告警B时,故障1、故障2和故障3均有可能发生。状态标记的确定是工作人员根据工作原理或者故障诊断经验进行预先配置的。
表1
在步骤S2中,根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度。
在本实施例中,每个告警的稀缺度用于评估某一个告警对于多个可能发生的故障中某一个故障发生的重要程度,在发生多个告警时,一般是由多个故障产生的,这些故障的总数是确定,而每一个告警的发生,则可能是由这些故障中的一个或多个导致的,即每个告警各自所关联的故障数量是一定的,在确定每个告警各自的稀缺度时,可以根据文本处理算法中的TF-IDF原理进行计算。
在步骤S3中,根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。
在本实施例中,告警与故障之间预设的关联得分指的是告警与故障之间所对应的权重,表示某故障引发对应的某告警发生的概率,所述预设的关联得分是工作人员根据故障诊断经验或者故障与告警之间的工作原理或逻辑进行配置的,具体地,在一实施例中,可以根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述关联得分。以上述的四个告警和三个故障为例,配置告警与故障之间的得分,如表2所示:
表2
如故障1与告警A之间的预设得分为30,则表示故障1造成告警A的概率为30%,故障1与告警B之间的预设得分为20,则表示故障1造成告警A的概率为20%,每个故障的总得分为100。
由于每个告警与故障之间的状态、告警的稀缺度以及告警与故障之间预设的关联得分都是影响故障诊断的重要因素,因此,综合上述三个指标的影响,计算出每个故障的总得分,总得分表示多个告警中至少部分告警的发生是由该故障导致的可能性。
在本申请一实施例中,总得分的计算方式可以是将每个告警所对应的上述三个指标的值相乘,得到一个乘积,将每个故障所对应的所有告警的乘积求和得出的值即为总得分,故障总得分可用如下公式进行表示:
其中,Scorei表示告警与故障之间预设的关联得分,Statusi表示告警的状态值,Idfi表示告警的稀缺度。
在本申请另一实施例中,告警的稀缺度计算方法可以按照以下公式进行确定:
其中,idfi表示所述多个告警中第i个告警的稀缺度,a表示故障的总数,b表示第i个告警所关联的故障的数量。
以表2中配置的告警与故障之间的预设的关联得分为基础,假设录入的故障总数为1000,某个告警所关联的故障数为M,具体配置关系如表3:
表3
根据上述的告警稀缺度计算公式,告警A的稀缺度为:
同理,按照上述的方法计算出其他告警的稀缺度,从而确定每个故障的总得分。下面以故障1为例,计算故障1的总得分:
根据表1可以确定每个告警与故障1之间的状态值,根据表2可以确定每个告警与故障1之间的预设得分,根据表3可以确定每个告警的稀缺度,根据故障总得分计算公式,那么故障1的总得分为:
30*1*2+20*1*2+30*1*2.69+20*0*2.3=180.7
同理,按照上述的计算方法,对故障2、故障3和故障N进行总得分计算,故障2的总得分为209,故障3的总得分为202.7。
采用本申请提供的故障诊断方法,通过获取历史告警记录,并对历史告警进行状态标记,以确定该告警是否发生,对发生的告警进行稀缺度计算,由于稀缺度是根据故障总数以及每个告警所关联的故障数进行计算的,因此进行每个告警的稀缺度计算可以实现突出关键告警,有利于提升诊断的准确率;预设的关联得分为告警与故障之间所对应的权重,表征某故障引发对应的某告警发生的概率;通过综合计算告警的稀缺度、状态以及与故障之间的预设得分所得出的故障总得分,可以准确的表示出发生某告警时某个故障产生的可能性,实现量化得分,提高诊断的准确性。
图2是本申请另一实施例提出的故障诊断方法的流程图,参照图2,所述方法包括以下步骤:
在步骤S11中,对所述历史告警记录包括的多个告警进行聚类,得到多个告警组。
在本实施例中,在获取的历史告警记录,有些告警是十分相似的,如果对每个相似的告警进行计算,会极大地增加计算量,而且还包含有公共告警,若不对公共告警进行区分,当公共告警发生时,会引起很多故障,导致故障没有区分度。而且,在有些案例中,如果录入告警过多,会导致每个告警权重过低。因此,对获取的历史告警记录进行聚类,将相似的告警分类到一个组中,将获取的历史告警记录形成多个告警组,通过淡化公共告警,聚合相似告警,可以提高诊断的准确性。
在步骤S12中,根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
在本实施例中,每个告警组的稀缺度用于评估某一个告警组对于多个可能发生的故障中某一个故障发生的重要程度。在发生多个告警时,一般是由多个故障产生的,这些故障的总数是确定,而每一个告警组内告警的发生,则可能是由这些故障中的一个或多个导致的,即每个告警组各自所关联的故障数量是一定的,即可以根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度。在确定每个告警组各自的稀缺度时,可以根据文本处理算法中的TF-IDF原理进行计算。
在本申请一实施例中,所述多个告警组中任一告警组的稀缺度可以按照以下公式确定:
其中,idfi表示所述多个告警组中第i个告警组的稀缺度,a表示故障的总数,b表示第i个告警组所关联的故障的数量。
具体的,表4配置了告警组与故障之间的预设的关联得分,以表4中的数据为例,假设录入的故障总数为1000,某个告警组内所有告警所关联的故障总数为M,告警组与故障之间的具体配置如表4所示,根据上述计算告警组稀缺度的公式,可以得到告警组A的稀缺度为:
同理,按照上述的方法可以计算出告警组B的稀缺度为2,告警组C的稀缺度为1.69,告警组D的稀缺度为2.69,告警组E的稀缺度为2.3。
表4
在步骤S13中,根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
在本实施例中,告警组是相似的告警的集合,包含一个或多个告警,由于每个告警都各自携带有状态标记,而每个告警携带的状态标记并非完全一致,在进行故障总得分计算时,是根据告警组的状态标记进行计算的,因此,需要对告警组的状态标记进行确定。告警组各自的组状态标记是根据所述告警组内的告警各自携带的状态标记进行确定的,具体地,若告警组内某一告警的状态标记为出现告警,则该告警组也会进行告警,即告警组内有任意一个告警的状态标记为出现告警,则该告警组的状态标记也为出现告警,告警组的状态值记为1;否则,该告警组的状态标记为未告警,告警组的状态值记为0。
在步骤S14中,根据告警与故障之间预设的关联得分,确定所述多个告警组各自与故障之间的组关联得分;
在本实施例中,告警与故障之间的关联得分是根据各个告警的历史发生次数和每次告警发生所关联的故障进行设置的,而每个告警组内包含有多个告警,在确定告警组与故障之间的组关联得分时,需要综合考虑整个告警组内每个告警的历史发生次数和每次告警所关联的故障进行确定,即根据告警与故障之间预设的关联得分,确定所述多个告警组各自与故障之间的组关联得分。在确定告警组与故障之间预设的组关联得分后,每个告警与故障之间的关联得分即为组关联得分,如表5所示,告警组E与故障1之间预设的组关联得分为20,则告警组E内的告警E、告警F和告警G与故障1之间的关联得分均为所述组关联得分20,告警组E内任意一告警发生告警时,该告警组E即视为发生告警。
表5
在步骤S15中,所述确定各个故障的总得分,包括:
根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间的组关联得分,确定各个故障的总得分。
在本实施例中,由于每个告警组与故障之间的状态、告警组的稀缺度以及告警组与故障之间预设的关联得分都是影响故障诊断的重要因素,因此,综合上述三个指标的影响,计算出每个故障的总得分。
将每个告警组与故障之间的状态、告警组的稀缺度以及告警组与故障之间预设的关联得分三个指标的值相乘,得到一个乘积,故障总得分为每个故障所对应的所有告警组的乘积求和得出的值,故障总得分可用如下公式进行表示:
其中,groupScorei表示告警组与故障之间预设的关联得分;groupStautsi表示告警组的状态值,groupIdfi表示告警组的稀缺度。
具体地,告警组与故障之间预设的关联得分以及告警组的稀缺度以表4中的数据为例,告警组与故障之间的状态值参照表1中的数据,按照上述故障与告警组之间的总得分计算公式对各个故障总得分进行计算,故障1的总得分为:
30*1*2+20*1*2+30*1*2.69+20*0*2.3=180.7
同理,按照上述的计算方法,对故障2、故障3和故障N进行总得分计算,故障2的总得分为209,故障3的总得分为202.7。
在上述实施例的基础上,在另一实施例中,在对所述历史告警记录包括的多个告警进行聚类,得到多个告警组之后,所述方法还包括:
在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或根据告警组编辑操作,对所述多个告警组进行更新。
在本实施例中,由于告警组是根据历史告警记录中各个告警发生告警的类别所确定的,主要是根据历史经验所确定的,随着技术的发展,会出现一些新的告警,这些新出现的告警未包含于已有的任一告警组中,为了提高对故障的诊断准确性,需要对这些故障进行新的归类,即根据新产生的告警进行类别的确定,然后根据其类别归类到对应类别的告警组中,也即对告警组的更新。由于告警组是按照一定的编辑操作进行确定的,所述编辑操作包括但不限于根据告警的类别对告警进行分类,当有新的告警产生时,或者出现新的告警组的分类可以提高故障诊断的准确性,则可以根据告警组的编辑操作,对告警组进行更新。
在上述任一实施例的基础上,在另一实施例中,在步骤S16中,按照得分从高到低的顺序,对所述各个故障的总得分进行排序。
按照上述实施例介绍的故障总得分计算方法,每个故障都会得出一个总得分,在录入故障总数较多的情况下,这些录入的故障并非为我们所需要诊断的故障,因此需要根据故障总得分确定哪些是真正导致告警的故障,而故障总得分表征的是多个告警中至少部分告警的发生是由该故障导致的可能性,即某一故障的总得分越高,代表该故障导致告警的可能性越大。因此,将各个故障的总得分按照得分从高到低的顺序进行排序。
在步骤S17中,将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
在将各个故障的总得分按照得分从高到低的顺序进行排序后,排序最靠前的则为导致告警发生可能性最大的故障,而导致某一告警发生的一般为一个故障或者几个故障,因此预设有一个序号,该序号的数字大小代表最有可能导致某一告警产生的几个故障,将故障总得分的序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表,即诊断出相应的故障。具体地,如预设序号为4,则表示总得分最高的3的故障为本次诊断的结果。
在上述任一实施例的基础上,在另一新的实施例中,获得历史告警记录,包括:
按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
在获取历史告警记录时,需要将告警数据库中的告警记录都扫描到,而每次获取的历史告警记录是有时长限制的,即只能获取某一预设时间段内的各个历史告警记录,获取历史告警记录也是有获取周期的,为了防止忽略部分告警,将预设时间段的时长设置为大于所述预设周期的时长。
例如,如图3所示,图3是本申请一实施例提出的故障诊断方法获取历史告警记录的示意图,采用天网告警检测系统扫描历史告警记录,每2分钟扫描一次过去4分钟内数据库的告警记录,并过滤掉已经恢复的。此处的预设周期为2分钟,预设时间段为4分钟,天网告警检测一分钟触发一次,将预设周期设置为2分钟是为了过滤抖动告警。
基于同一发明构思,本申请一实施例提供一种故障诊断装置。参考图4,图4是本申请一实施例提出的故障诊断装置的示意图。如图4所示,该装置包括:
数据获取模块1,被配置为获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;
稀缺度确定模块4,被配置为根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度;
总得分计算模块9,被配置为根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。
可选地,所述装置还包括:
分组模块2,对所述历史告警记录包括的多个告警进行聚类,得到多个告警组;
所述稀缺度确定模块4包括组稀缺度确定模块41,
组稀缺度确定模块41,被配置为根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
组状态确定模块5,被配置为根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
所述总得分计算模块9,包括:
总得分计算子模块91,被配置为根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间预设的组关联得分,确定各个故障的总得分。
可选地,所述装置还包括:
告警组更新模块3,被配置为在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或根据告警组编辑操作,对所述多个告警组进行更新。
可选地,所述装置还包括:
状态值确定模块6,被配置为针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;
相关度得分计算模块8,被配置为根据所述多个告警各自的权重,以及告警与故障之间预设的关联得分,确定各个故障的相关度得分;
总得分计算模块9,被配置为根据所述多个告警各自的稀缺度和所述各个故障的相关度得分,确定各个故障的总得分。
可选地,所述装置还包括:
得分预设模块7,被配置为根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述预设关联得分或预设组关联得分。
可选地,所述稀缺度确定模块4被配置为所述多个告警中任一告警的稀缺度是按照以下公式确定的:
其中,idfi表示所述多个告警中第i个告警的稀缺度,a表示故障的总数,b表示第i个告警所关联的故障的数量。
可选地,所述装置还包括:
排序模块10,被配置为按照得分从高到低的顺序,对所述各个故障的总得分进行排序;
输出模块11,被配置为将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
可选地,所述数据获取模块1被配置为按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的故障诊断方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的故障诊断方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种故障诊断方法、装置、设备及存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种故障诊断方法,其特征在于,所述方法包括:
获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;
根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度,所述稀缺度是按照以下公式确定的:
其中,表示所述多个告警中第/>个告警的稀缺度,/>表示故障的总数,/>表示第/>个告警所关联的故障的数量;
根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,包括:针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;根据所述多个告警各自的权重,以及告警与故障之间预设的关联得分,确定各个故障的相关度得分;根据所述多个告警各自的稀缺度和所述各个故障的相关度分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性,所述关联得分是按照以下步骤预先设置的:根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述关联得分,所述故障总得分用如下公式进行表示:
其中,表示第/>个告警与故障之间预设的关联得分,/>表示第/>个告警的状态值,/>表示第/>个告警的稀缺度。
2.根据权利要求1所述的方法,其特征在于,在获得历史告警记录之后,所述方法还包括:
对所述历史告警记录包括的多个告警进行聚类,得到多个告警组;
根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
根据告警与故障之间预设的关联得分,确定所述多个告警组各自与故障之间的组关联得分;
所述确定各个故障的总得分,包括:
根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间的组关联得分,确定各个故障的总得分,所述故障总得分用如下公式进行表示:
其中,表示第/>个告警组与故障之间预设的关联得分;/>表示第/>个告警组的状态值,/>表示第/>个告警组的稀缺度。
3.根据权利要求2所述的方法,其特征在于,在对所述历史告警记录包括的多个告警进行聚类,得到多个告警组之后,所述方法还包括:
在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或
根据告警组编辑操作,对所述多个告警组进行更新。
4.根据权利要求1-3任一所述的方法,其特征在于,所述方法还包括:
按照得分从高到低的顺序,对所述各个故障的总得分进行排序;
将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
5.根据权利要求1-3任一所述的方法,其特征在于,获得历史告警记录,包括:
按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
6.一种故障诊断装置,其特征在于,所述装置包括:
数据获取模块,被配置为获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;
稀缺度确定模块,被配置为根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度,所述稀缺度是按照以下公式确定的:
其中,表示所述多个告警中第/>个告警的稀缺度,/>表示故障的总数,/>表示第/>个告警所关联的故障的数量;
总得分计算模块,被配置为根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,包括:针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;根据所述多个告警各自的权重,以及告警与故障之间预设的关联得分,确定各个故障的相关度得分;根据所述多个告警各自的稀缺度和所述各个故障的相关度分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性,所述关联得分是按照以下步骤预先设置的:根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述关联得分,所述故障总得分用如下公式进行表示:
其中,表示第/>个告警与故障之间预设的关联得分,/>表示第/>个告警的状态值,/>表示第/>个告警的稀缺度。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
分组模块,对所述历史告警记录包括的多个告警进行聚类,得到多个告警组;
所述稀缺度确定模块包括组稀缺度确定模块,
组稀缺度确定模块,被配置为根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
组状态确定模块,被配置为根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
所述总得分计算模块,包括:
总得分计算子模块,被配置为根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间预设的组关联得分,确定各个故障的总得分,所述故障总得分用如下公式进行表示:
其中,表示第/>个告警组与故障之间预设的关联得分;/>表示第/>个告警组的状态值,/>表示第/>个告警组的稀缺度。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
告警组更新模块,被配置为在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或根据告警组编辑操作,对所述多个告警组进行更新。
9.根据权利要求6-8任一所述的装置,其特征在于,所述装置还包括:
排序模块,被配置为按照得分从高到低的顺序,对所述各个故障的总得分进行排序;
输出模块,被配置为将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
10.根据权利要求6-8任一所述的装置,其特征在于,所述数据获取模块被配置为按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1至5任一所述的方法中的步骤。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至5任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010296933.5A CN111638989B (zh) | 2020-04-15 | 2020-04-15 | 故障诊断方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010296933.5A CN111638989B (zh) | 2020-04-15 | 2020-04-15 | 故障诊断方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111638989A CN111638989A (zh) | 2020-09-08 |
CN111638989B true CN111638989B (zh) | 2023-12-08 |
Family
ID=72329915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010296933.5A Active CN111638989B (zh) | 2020-04-15 | 2020-04-15 | 故障诊断方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111638989B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365066B (zh) * | 2020-11-17 | 2023-05-02 | 日立楼宇技术(广州)有限公司 | 电梯故障预测方法、系统、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294473A (zh) * | 2015-06-03 | 2017-01-04 | 北京搜狗科技发展有限公司 | 一种实体词挖掘方法、信息推荐方法及装置 |
CN106646030A (zh) * | 2016-11-15 | 2017-05-10 | 国家电网公司 | 基于多数据源及专家规则库的电网故障诊断方法及装置 |
CN108021492A (zh) * | 2016-11-04 | 2018-05-11 | 华为技术有限公司 | 一种告警合并方法及设备 |
CN109358602A (zh) * | 2018-10-23 | 2019-02-19 | 山东中创软件商用中间件股份有限公司 | 一种故障分析方法、装置及相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203450B (zh) * | 2016-03-16 | 2020-06-02 | 伊姆西Ip控股有限责任公司 | 故障的分类方法和设备 |
-
2020
- 2020-04-15 CN CN202010296933.5A patent/CN111638989B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294473A (zh) * | 2015-06-03 | 2017-01-04 | 北京搜狗科技发展有限公司 | 一种实体词挖掘方法、信息推荐方法及装置 |
CN108021492A (zh) * | 2016-11-04 | 2018-05-11 | 华为技术有限公司 | 一种告警合并方法及设备 |
CN106646030A (zh) * | 2016-11-15 | 2017-05-10 | 国家电网公司 | 基于多数据源及专家规则库的电网故障诊断方法及装置 |
CN109358602A (zh) * | 2018-10-23 | 2019-02-19 | 山东中创软件商用中间件股份有限公司 | 一种故障分析方法、装置及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111638989A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113556258B (zh) | 一种异常检测方法及装置 | |
CN105184084B (zh) | 一种电力计量自动化终端故障类型预测方法和系统 | |
CN113282461B (zh) | 传输网的告警识别方法和装置 | |
EP3026518A1 (en) | Method for Root analysis of an alarm flood sequence | |
CN110535702A (zh) | 一种告警信息处理方法及装置 | |
CN113689911B (zh) | 一种故障诊断方法、装置、设备及可读存储介质 | |
CN113037575B (zh) | 网元异常的根因定位方法、装置、电子设备及存储介质 | |
CN111722952A (zh) | 业务系统的故障分析方法、系统、设备和存储介质 | |
CN107679089B (zh) | 一种用于电力传感数据的清洗方法、装置和系统 | |
CN109977146B (zh) | 故障诊断方法、装置及电子设备 | |
CN113806171A (zh) | 一种服务器健康评估方法、系统、设备以及介质 | |
CN112286771A (zh) | 一种针对全域资源监控的告警方法 | |
CN114201374A (zh) | 基于混合机器学习的运维时序数据异常检测方法及系统 | |
CN115392812B (zh) | 一种异常根因定位方法、装置、设备及介质 | |
CN111638989B (zh) | 故障诊断方法、装置、存储介质及设备 | |
CN115688016A (zh) | 一种用于大型数据库智能运维的一体化方法 | |
WO2016188571A1 (en) | Method and apparatus for analysing performance of a network by managing network data relating to operation of the network | |
CN116778688B (zh) | 机房告警事件处理方法、装置、设备及存储介质 | |
CN114116391A (zh) | Redis实例的健康检测方法、装置、设备及存储介质 | |
CN117009180A (zh) | 日志、异常警报信息处理方法及装置 | |
CN112054913B (zh) | 一种数据监控系统及方法 | |
CN116545867A (zh) | 一种监控通信网络网元性能指标异常的方法及装置 | |
CN111563111A (zh) | 告警方法、装置、电子设备及存储介质 | |
CN116579604A (zh) | 一种评估企业安全风险的方法及系统 | |
CN113656287B (zh) | 软件实例故障的预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |