CN111638989A - 故障诊断方法、装置、存储介质及设备 - Google Patents

故障诊断方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN111638989A
CN111638989A CN202010296933.5A CN202010296933A CN111638989A CN 111638989 A CN111638989 A CN 111638989A CN 202010296933 A CN202010296933 A CN 202010296933A CN 111638989 A CN111638989 A CN 111638989A
Authority
CN
China
Prior art keywords
alarm
fault
alarms
group
scarcity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010296933.5A
Other languages
English (en)
Other versions
CN111638989B (zh
Inventor
杨泽英
马超
李天棚
郝学武
张天佑
蒋洪旭
张笑楠
白金山
孙大猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010296933.5A priority Critical patent/CN111638989B/zh
Publication of CN111638989A publication Critical patent/CN111638989A/zh
Application granted granted Critical
Publication of CN111638989B publication Critical patent/CN111638989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Alarm Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请实施例涉及数据处理技术领域,具体涉及一种故障诊断方法、装置、存储介质及设备,所述故障诊断方法包括:获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度;根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。本方法通过综合计算告警的稀缺度、状态以及与故障之间的预设得分得出故障总得分,可以实现在没有大量样本的情况下,准确地对故障进行诊断。

Description

故障诊断方法、装置、存储介质及设备
技术领域
本申请实施例涉及数据处理技术领域,具体而言,涉及一种故障诊断方法、装置、存储介质及设备。
背景技术
在软件系统运行过程中,一个故障发生时会引起若干个相关的告警,在实际情况中,相关人员会接到若干告警,然后需要根据所产生的告警查找产生告警的原因并作出相应的处理。
在收集到告警后,如果依赖人工去进行分析、处理将会严重依赖处理人员的专业知识及对系统的熟悉度,另外,在处理过程中也会耗费比较长时间去做告警分析,严重影响故障的处理进度。
现有的一些相关技术中的故障诊断存在较多缺陷,如:1、在投入使用前需要收集大量的故障案例,对于普通软件系统来说,大量的故障案例是比较难收集到的。2、收集数据后需要构建相应的分类模型,由于上一步条件的限制可能导致分类模型的准确率和召回率比较低,从而直接影响后续故障的判断。3、故障分析模型比较复杂,这也可能导致故障诊断系统的准确性较低。
发明内容
本申请实施例提供一种故障诊断方法、装置、设备及存储介质,旨在在没有大量样本的情况下,如何比较准确的定位故障。
本申请实施例第一方面提供一种故障诊断方法,所述方法包括:
获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;
根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度;
根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。
可选地,在获得历史告警记录之后,所述方法还包括:
对所述历史告警记录包括的多个告警进行聚类,得到多个告警组;
根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
根据告警与故障之间预设的关联得分,确定所述多个告警组各自与故障之间的组关联得分;
所述确定各个故障的总得分,包括:
根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间的组关联得分,确定各个故障的总得分。
可选地,在对所述历史告警记录包括的多个告警进行聚类,得到多个告警组之后,所述方法还包括:
在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或
根据告警组编辑操作,对所述多个告警组进行更新。
可选地,根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,包括:
针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;
根据所述多个告警各自的权重,以及告警与故障之间预设的关联得分,确定各个故障的相关度得分;
根据所述多个告警各自的稀缺度和所述各个故障的相关度分,确定各个故障的总得分。
可选地,告警与故障之间预设的关联得分是按照以下步骤预先设置的:
根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述关联得分。
可选地,所述多个告警中任一告警的稀缺度是按照以下公式确定的:
Figure BDA0002452540020000031
其中,idfi表示所述多个告警中第i个告警的稀缺度,a表示故障的总数,b表示第i个告警所关联的故障的数量。
可选地,所述方法还包括:
按照得分从高到低的顺序,对所述各个故障的总得分进行排序;
将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
可选地,获得历史告警记录,包括:
按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
本申请实施例第二方面提供一种故障诊断装置,所述装置包括:
数据获取模块,被配置为获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;
稀缺度确定模块,被配置为根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度;
总得分计算模块,被配置为根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。
可选地,所述装置还包括:
分组模块,对所述历史告警记录包括的多个告警进行聚类,得到多个告警组;
所述稀缺度确定模块包括组稀缺度确定模块,
组稀缺度确定模块,被配置为根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
组状态确定模块,被配置为根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
所述总得分计算模块,包括:
总得分计算子模块,被配置为根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间预设的组关联得分,确定各个故障的总得分。
可选地,所述装置还包括:
告警组更新模块,被配置为在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或根据告警组编辑操作,对所述多个告警组进行更新。
可选地,所述装置还包括:
状态值确定模块,被配置为针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;
相关度得分计算模块,被配置为根据所述多个告警各自的权重,以及告警与故障之间预设的关联得分,确定各个故障的相关度得分;
总得分计算模块,被配置为根据所述多个告警各自的稀缺度和所述各个故障的相关度得分,确定各个故障的总得分。
可选地,所述装置还包括:
得分预设模块,被配置为根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述预设关联得分或预设组关联得分。
可选地,所述稀缺度确定模块被配置为所述多个告警中任一告警的稀缺度是按照以下公式确定的:
Figure BDA0002452540020000041
其中,idfi表示所述多个告警中第i个告警的稀缺度,a表示故障的总数,b表示第i个告警所关联的故障的数量。
可选地,所述装置还包括:
排序模块,被配置为按照得分从高到低的顺序,对所述各个故障的总得分进行排序;
输出模块,被配置为将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
可选地,所述数据获取模块被配置为按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
采用本申请提供的故障诊断方法,通过获取历史告警记录,并对历史告警进行状态标记,以确定该告警是否发生,对发生的告警进行稀缺度计算,由于稀缺度是根据故障总数以及每个告警所关联的故障数进行计算的,因此进行每个告警的稀缺度计算可以实现突出关键告警,有利于提升诊断的准确率;预设的关联得分为告警与故障之间所对应的权重,表征某故障引发对应的某告警发生的概率;通过综合计算告警的稀缺度、状态以及与故障之间的预设得分所得出的故障总得分,可以准确的表示出发生某告警时某个故障产生的可能性,实现量化得分,提高诊断的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的故障诊断方法的流程图;
图2是本申请另一实施例提出的故障诊断方法的流程图;
图3是本申请一实施例提出的故障诊断方法获取历史告警记录的示意图;
图4是本申请一实施例提出的故障诊断装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请一实施例提出的故障诊断方法的流程图。如图1所示,该方法包括以下步骤:
在步骤S1中,获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生。
在本实施例中,历史告警记录是由告警检测中心检测并形成的记录,如采用天网告警对设备所发生的告警进行检测并形成记录,所述历史告警记录一般指的是过去的一个连续的时间段内所形成的告警记录。
每个历史告警记录中的告警为携带状态标记的告警,状态标记表征告警是否发生,具体地,即该状态标记标识某个发生的告警是否可能由某个故障导致的。在本申请一实施例中,分别有五个告警和3个故障,具体如下:
告警A:二维码微信支付成功率下降;
告警B:二维码微信支付成功量下降;
告警C:永丰机房tp99异常;
告警D:微信支付错误码TRADEERROR飙升;
告警E:录入但是没告警(以表1为例,指故障1可能导致告警E发生,但是本次故障1发生,并未导致产生告警E);
故障1:C扫B下游微信故障;
故障2:二维码产品内部异常;
故障3:永丰机房故障;
针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;每个告警的状态标记如表1所示,具体地,将第一值的取值设为1,状态标记的取值范围为{0,1},即状态值为1表示出现告警,状态值为0表示未告警,以表中为例,出现告警A:二维码微信支付成功率下降时,可能是有故障1:C扫B下游微信故障或者故障2:二维码产品内部异常引起的,或者是由故障1和故障2共同引起的,而不可能是由故障3引起的,同理,若发生告警B时,故障1、故障2和故障3均有可能发生。状态标记的确定是工作人员根据工作原理或者故障诊断经验进行预先配置的。
Figure BDA0002452540020000071
表1
在步骤S2中,根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度。
在本实施例中,每个告警的稀缺度用于评估某一个告警对于多个可能发生的故障中某一个故障发生的重要程度,在发生多个告警时,一般是由多个故障产生的,这些故障的总数是确定,而每一个告警的发生,则可能是由这些故障中的一个或多个导致的,即每个告警各自所关联的故障数量是一定的,在确定每个告警各自的稀缺度时,可以根据文本处理算法中的TF-IDF原理进行计算。
在步骤S3中,根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。
在本实施例中,告警与故障之间预设的关联得分指的是告警与故障之间所对应的权重,表示某故障引发对应的某告警发生的概率,所述预设的关联得分是工作人员根据故障诊断经验或者故障与告警之间的工作原理或逻辑进行配置的,具体地,在一实施例中,可以根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述关联得分。以上述的四个告警和三个故障为例,配置告警与故障之间的得分,如表2所示:
Figure BDA0002452540020000081
表2
如故障1与告警A之间的预设得分为30,则表示故障1造成告警A的概率为30%,故障1与告警B之间的预设得分为20,则表示故障1造成告警A的概率为20%,每个故障的总得分为100。
由于每个告警与故障之间的状态、告警的稀缺度以及告警与故障之间预设的关联得分都是影响故障诊断的重要因素,因此,综合上述三个指标的影响,计算出每个故障的总得分,总得分表示多个告警中至少部分告警的发生是由该故障导致的可能性。
在本申请一实施例中,总得分的计算方式可以是将每个告警所对应的上述三个指标的值相乘,得到一个乘积,将每个故障所对应的所有告警的乘积求和得出的值即为总得分,故障总得分可用如下公式进行表示:
Figure BDA0002452540020000082
其中,Scorei表示告警与故障之间预设的关联得分,Statusi表示告警的状态值,Idfi表示告警的稀缺度。
在本申请另一实施例中,告警的稀缺度计算方法可以按照以下公式进行确定:
Figure BDA0002452540020000091
其中,idfi表示所述多个告警中第i个告警的稀缺度,a表示故障的总数,b表示第i个告警所关联的故障的数量。
以表2中配置的告警与故障之间的预设的关联得分为基础,假设录入的故障总数为1000,某个告警所关联的故障数为M,具体配置关系如表3:
Figure BDA0002452540020000092
表3
根据上述的告警稀缺度计算公式,告警A的稀缺度为:
Figure BDA0002452540020000093
同理,按照上述的方法计算出其他告警的稀缺度,从而确定每个故障的总得分。下面以故障1为例,计算故障1的总得分:
根据表1可以确定每个告警与故障1之间的状态值,根据表2可以确定每个告警与故障1之间的预设得分,根据表3可以确定每个告警的稀缺度,根据故障总得分计算公式,那么故障1的总得分为:
30*1*2+20*1*2+30*1*2.69+20*0*2.3=180.7
同理,按照上述的计算方法,对故障2、故障3和故障N进行总得分计算,故障2的总得分为209,故障3的总得分为202.7。
采用本申请提供的故障诊断方法,通过获取历史告警记录,并对历史告警进行状态标记,以确定该告警是否发生,对发生的告警进行稀缺度计算,由于稀缺度是根据故障总数以及每个告警所关联的故障数进行计算的,因此进行每个告警的稀缺度计算可以实现突出关键告警,有利于提升诊断的准确率;预设的关联得分为告警与故障之间所对应的权重,表征某故障引发对应的某告警发生的概率;通过综合计算告警的稀缺度、状态以及与故障之间的预设得分所得出的故障总得分,可以准确的表示出发生某告警时某个故障产生的可能性,实现量化得分,提高诊断的准确性。
图2是本申请另一实施例提出的故障诊断方法的流程图,参照图2,所述方法包括以下步骤:
在步骤S11中,对所述历史告警记录包括的多个告警进行聚类,得到多个告警组。
在本实施例中,在获取的历史告警记录,有些告警是十分相似的,如果对每个相似的告警进行计算,会极大地增加计算量,而且还包含有公共告警,若不对公共告警进行区分,当公共告警发生时,会引起很多故障,导致故障没有区分度。而且,在有些案例中,如果录入告警过多,会导致每个告警权重过低。因此,对获取的历史告警记录进行聚类,将相似的告警分类到一个组中,将获取的历史告警记录形成多个告警组,通过淡化公共告警,聚合相似告警,可以提高诊断的准确性。
在步骤S12中,根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
在本实施例中,每个告警组的稀缺度用于评估某一个告警组对于多个可能发生的故障中某一个故障发生的重要程度。在发生多个告警时,一般是由多个故障产生的,这些故障的总数是确定,而每一个告警组内告警的发生,则可能是由这些故障中的一个或多个导致的,即每个告警组各自所关联的故障数量是一定的,即可以根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度。在确定每个告警组各自的稀缺度时,可以根据文本处理算法中的TF-IDF原理进行计算。
在本申请一实施例中,所述多个告警组中任一告警组的稀缺度可以按照以下公式确定:
Figure BDA0002452540020000101
其中,idfi表示所述多个告警组中第i个告警组的稀缺度,a表示故障的总数,b表示第i个告警组所关联的故障的数量。
具体的,表4配置了告警组与故障之间的预设的关联得分,以表4中的数据为例,假设录入的故障总数为1000,某个告警组内所有告警所关联的故障总数为M,告警组与故障之间的具体配置如表4所示,根据上述计算告警组稀缺度的公式,可以得到告警组A的稀缺度为:
Figure BDA0002452540020000111
同理,按照上述的方法可以计算出告警组B的稀缺度为2,告警组C的稀缺度为1.69,告警组D的稀缺度为2.69,告警组E的稀缺度为2.3。
Figure BDA0002452540020000112
表4
在步骤S13中,根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
在本实施例中,告警组是相似的告警的集合,包含一个或多个告警,由于每个告警都各自携带有状态标记,而每个告警携带的状态标记并非完全一致,在进行故障总得分计算时,是根据告警组的状态标记进行计算的,因此,需要对告警组的状态标记进行确定。告警组各自的组状态标记是根据所述告警组内的告警各自携带的状态标记进行确定的,具体地,若告警组内某一告警的状态标记为出现告警,则该告警组也会进行告警,即告警组内有任意一个告警的状态标记为出现告警,则该告警组的状态标记也为出现告警,告警组的状态值记为1;否则,该告警组的状态标记为未告警,告警组的状态值记为0。
在步骤S14中,根据告警与故障之间预设的关联得分,确定所述多个告警组各自与故障之间的组关联得分;
在本实施例中,告警与故障之间的关联得分是根据各个告警的历史发生次数和每次告警发生所关联的故障进行设置的,而每个告警组内包含有多个告警,在确定告警组与故障之间的组关联得分时,需要综合考虑整个告警组内每个告警的历史发生次数和每次告警所关联的故障进行确定,即根据告警与故障之间预设的关联得分,确定所述多个告警组各自与故障之间的组关联得分。在确定告警组与故障之间预设的组关联得分后,每个告警与故障之间的关联得分即为组关联得分,如表5所示,告警组E与故障1之间预设的组关联得分为20,则告警组E内的告警E、告警F和告警G与故障1之间的关联得分均为所述组关联得分20,告警组E内任意一告警发生告警时,该告警组E即视为发生告警。
Figure BDA0002452540020000121
表5
在步骤S15中,所述确定各个故障的总得分,包括:
根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间的组关联得分,确定各个故障的总得分。
在本实施例中,由于每个告警组与故障之间的状态、告警组的稀缺度以及告警组与故障之间预设的关联得分都是影响故障诊断的重要因素,因此,综合上述三个指标的影响,计算出每个故障的总得分。
将每个告警组与故障之间的状态、告警组的稀缺度以及告警组与故障之间预设的关联得分三个指标的值相乘,得到一个乘积,故障总得分为每个故障所对应的所有告警组的乘积求和得出的值,故障总得分可用如下公式进行表示:
Figure BDA0002452540020000131
其中,groupScorei表示告警组与故障之间预设的关联得分;groupStautsi表示告警组的状态值,groupIdfi表示告警组的稀缺度。
具体地,告警组与故障之间预设的关联得分以及告警组的稀缺度以表4中的数据为例,告警组与故障之间的状态值参照表1中的数据,按照上述故障与告警组之间的总得分计算公式对各个故障总得分进行计算,故障1的总得分为:
30*1*2+20*1*2+30*1*2.69+20*0*2.3=180.7
同理,按照上述的计算方法,对故障2、故障3和故障N进行总得分计算,故障2的总得分为209,故障3的总得分为202.7。
在上述实施例的基础上,在另一实施例中,在对所述历史告警记录包括的多个告警进行聚类,得到多个告警组之后,所述方法还包括:
在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或根据告警组编辑操作,对所述多个告警组进行更新。
在本实施例中,由于告警组是根据历史告警记录中各个告警发生告警的类别所确定的,主要是根据历史经验所确定的,随着技术的发展,会出现一些新的告警,这些新出现的告警未包含于已有的任一告警组中,为了提高对故障的诊断准确性,需要对这些故障进行新的归类,即根据新产生的告警进行类别的确定,然后根据其类别归类到对应类别的告警组中,也即对告警组的更新。由于告警组是按照一定的编辑操作进行确定的,所述编辑操作包括但不限于根据告警的类别对告警进行分类,当有新的告警产生时,或者出现新的告警组的分类可以提高故障诊断的准确性,则可以根据告警组的编辑操作,对告警组进行更新。
在上述任一实施例的基础上,在另一实施例中,在步骤S16中,按照得分从高到低的顺序,对所述各个故障的总得分进行排序。
按照上述实施例介绍的故障总得分计算方法,每个故障都会得出一个总得分,在录入故障总数较多的情况下,这些录入的故障并非为我们所需要诊断的故障,因此需要根据故障总得分确定哪些是真正导致告警的故障,而故障总得分表征的是多个告警中至少部分告警的发生是由该故障导致的可能性,即某一故障的总得分越高,代表该故障导致告警的可能性越大。因此,将各个故障的总得分按照得分从高到低的顺序进行排序。
在步骤S17中,将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
在将各个故障的总得分按照得分从高到低的顺序进行排序后,排序最靠前的则为导致告警发生可能性最大的故障,而导致某一告警发生的一般为一个故障或者几个故障,因此预设有一个序号,该序号的数字大小代表最有可能导致某一告警产生的几个故障,将故障总得分的序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表,即诊断出相应的故障。具体地,如预设序号为4,则表示总得分最高的3的故障为本次诊断的结果。
在上述任一实施例的基础上,在另一新的实施例中,获得历史告警记录,包括:
按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
在获取历史告警记录时,需要将告警数据库中的告警记录都扫描到,而每次获取的历史告警记录是有时长限制的,即只能获取某一预设时间段内的各个历史告警记录,获取历史告警记录也是有获取周期的,为了防止忽略部分告警,将预设时间段的时长设置为大于所述预设周期的时长。
例如,如图3所示,图3是本申请一实施例提出的故障诊断方法获取历史告警记录的示意图,采用天网告警检测系统扫描历史告警记录,每2分钟扫描一次过去4分钟内数据库的告警记录,并过滤掉已经恢复的。此处的预设周期为2分钟,预设时间段为4分钟,天网告警检测一分钟触发一次,将预设周期设置为2分钟是为了过滤抖动告警。
基于同一发明构思,本申请一实施例提供一种故障诊断装置。参考图4,图4是本申请一实施例提出的故障诊断装置的示意图。如图4所示,该装置包括:
数据获取模块1,被配置为获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;
稀缺度确定模块4,被配置为根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度;
总得分计算模块9,被配置为根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。
可选地,所述装置还包括:
分组模块2,对所述历史告警记录包括的多个告警进行聚类,得到多个告警组;
所述稀缺度确定模块4包括组稀缺度确定模块41,
组稀缺度确定模块41,被配置为根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
组状态确定模块5,被配置为根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
所述总得分计算模块9,包括:
总得分计算子模块91,被配置为根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间预设的组关联得分,确定各个故障的总得分。
可选地,所述装置还包括:
告警组更新模块3,被配置为在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或根据告警组编辑操作,对所述多个告警组进行更新。
可选地,所述装置还包括:
状态值确定模块6,被配置为针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;
相关度得分计算模块8,被配置为根据所述多个告警各自的权重,以及告警与故障之间预设的关联得分,确定各个故障的相关度得分;
总得分计算模块9,被配置为根据所述多个告警各自的稀缺度和所述各个故障的相关度得分,确定各个故障的总得分。
可选地,所述装置还包括:
得分预设模块7,被配置为根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述预设关联得分或预设组关联得分。
可选地,所述稀缺度确定模块4被配置为所述多个告警中任一告警的稀缺度是按照以下公式确定的:
Figure BDA0002452540020000161
其中,idfi表示所述多个告警中第i个告警的稀缺度,a表示故障的总数,b表示第i个告警所关联的故障的数量。
可选地,所述装置还包括:
排序模块10,被配置为按照得分从高到低的顺序,对所述各个故障的总得分进行排序;
输出模块11,被配置为将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
可选地,所述数据获取模块1被配置为按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的故障诊断方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的故障诊断方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种故障诊断方法、装置、设备及存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种故障诊断方法,其特征在于,所述方法包括:
获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;
根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度;
根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。
2.根据权利要求1所述的方法,其特征在于,在获得历史告警记录之后,所述方法还包括:
对所述历史告警记录包括的多个告警进行聚类,得到多个告警组;
根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
根据告警与故障之间预设的关联得分,确定所述多个告警组各自与故障之间的组关联得分;
所述确定各个故障的总得分,包括:
根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间的组关联得分,确定各个故障的总得分。
3.根据权利要求2所述的方法,其特征在于,在对所述历史告警记录包括的多个告警进行聚类,得到多个告警组之后,所述方法还包括:
在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或
根据告警组编辑操作,对所述多个告警组进行更新。
4.根据权利要求1所述的方法,其特征在于,根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,包括:
针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;
根据所述多个告警各自的权重,以及告警与故障之间预设的关联得分,确定各个故障的相关度得分;
根据所述多个告警各自的稀缺度和所述各个故障的相关度分,确定各个故障的总得分。
5.根据权利要求1-4任一所述的方法,其特征在于,告警与故障之间预设的关联得分是按照以下步骤预先设置的:
根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述关联得分。
6.根据权利要求1-4任一所述的方法,其特征在于,所述多个告警中任一告警的稀缺度是按照以下公式确定的:
Figure FDA0002452540010000021
其中,idfi表示所述多个告警中第i个告警的稀缺度,a表示故障的总数,b表示第i个告警所关联的故障的数量。
7.根据权利要求1-4任一所述的方法,其特征在于,所述方法还包括:
按照得分从高到低的顺序,对所述各个故障的总得分进行排序;
将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
8.根据权利要求1-4任一所述的方法,其特征在于,获得历史告警记录,包括:
按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
9.一种故障诊断装置,其特征在于,所述装置包括:
数据获取模块,被配置为获得历史告警记录,所述历史告警记录包括多个携带状态标记的告警,所述状态标记表征告警是否发生;
稀缺度确定模块,被配置为根据故障的总数,以及所述多个告警各自所关联的故障的数量,确定所述多个告警各自的稀缺度;
总得分计算模块,被配置为根据所述多个告警各自的稀缺度和携带的状态标记,以及告警与故障之间预设的关联得分,确定各个故障的总得分,其中,一个故障的总得分表征:所述多个告警中至少部分告警的发生是由该故障导致的可能性。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
分组模块,对所述历史告警记录包括的多个告警进行聚类,得到多个告警组;
所述稀缺度确定模块包括组稀缺度确定模块,
组稀缺度确定模块,被配置为根据故障的总数,以及所述多个告警组各自所关联的故障的数量,确定所述多个告警组各自的组稀缺度;
组状态确定模块,被配置为根据所述告警组内的告警各自携带的状态标记,确定所述多个告警组各自的组状态标记;
所述总得分计算模块,包括:
总得分计算子模块,被配置为根据所述多个告警组各自的组稀缺度和组状态标记,以及所述多个告警组各自与故障之间预设的组关联得分,确定各个故障的总得分。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
告警组更新模块,被配置为在当前告警记录中的告警未包含于所述多个告警组中的任一告警组的情况下,确定所述当前告警记录中的告警所属的类别,并添加到所述多个告警组中的一个告警组中;和/或根据告警组编辑操作,对所述多个告警组进行更新。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
状态值确定模块,被配置为针对所述多个告警中携带的状态标记为已发生的告警,将已发生的告警的权重设置为第一值,以及,针对所述多个告警中携带的状态标记为未发生的告警,将未发生的告警的权重设置为零,所述第一值大于零;
相关度得分计算模块,被配置为根据所述多个告警各自的权重,以及告警与故障之间预设的关联得分,确定各个故障的相关度得分;
总得分计算模块,被配置为根据所述多个告警各自的稀缺度和所述各个故障的相关度得分,确定各个故障的总得分。
13.根据权利要求9-12任一所述的装置,其特征在于,所述装置还包括:
得分预设模块,被配置为根据各个告警的历史发生的次数和每次告警发生所关联的故障,设置所述预设关联得分或预设组关联得分。
14.根据权利要求9-12任一所述的装置,其特征在于,所述稀缺度确定模块被配置为所述多个告警中任一告警的稀缺度是按照以下公式确定的:
Figure FDA0002452540010000041
其中,idfi表示所述多个告警中第i个告警的稀缺度,a表示故障的总数,b表示第i个告警所关联的故障的数量。
15.根据权利要求9-12任一所述的装置,其特征在于,所述装置还包括:
排序模块,被配置为按照得分从高到低的顺序,对所述各个故障的总得分进行排序;
输出模块,被配置为将序号在预设序号之前的故障添加到故障列表中,并输出所述故障列表。
16.根据权利要求9-12任一所述的装置,其特征在于,所述数据获取模块被配置为按照预设周期,从告警数据库中读取预设时间段内的各个历史告警记录,其中,所述预设时间段的时长大于所述预设周期的时长。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1至8任一所述的方法中的步骤。
18.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至8任一所述的方法的步骤。
CN202010296933.5A 2020-04-15 2020-04-15 故障诊断方法、装置、存储介质及设备 Active CN111638989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010296933.5A CN111638989B (zh) 2020-04-15 2020-04-15 故障诊断方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010296933.5A CN111638989B (zh) 2020-04-15 2020-04-15 故障诊断方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN111638989A true CN111638989A (zh) 2020-09-08
CN111638989B CN111638989B (zh) 2023-12-08

Family

ID=72329915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010296933.5A Active CN111638989B (zh) 2020-04-15 2020-04-15 故障诊断方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN111638989B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105266A1 (zh) * 2020-11-17 2022-05-27 日立楼宇技术(广州)有限公司 电梯故障预测方法、系统、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294473A (zh) * 2015-06-03 2017-01-04 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
CN106646030A (zh) * 2016-11-15 2017-05-10 国家电网公司 基于多数据源及专家规则库的电网故障诊断方法及装置
US20170269985A1 (en) * 2016-03-16 2017-09-21 EMC IP Holding Company LLC Method and apparatus for failure classification
CN108021492A (zh) * 2016-11-04 2018-05-11 华为技术有限公司 一种告警合并方法及设备
CN109358602A (zh) * 2018-10-23 2019-02-19 山东中创软件商用中间件股份有限公司 一种故障分析方法、装置及相关设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294473A (zh) * 2015-06-03 2017-01-04 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
US20170269985A1 (en) * 2016-03-16 2017-09-21 EMC IP Holding Company LLC Method and apparatus for failure classification
CN108021492A (zh) * 2016-11-04 2018-05-11 华为技术有限公司 一种告警合并方法及设备
CN106646030A (zh) * 2016-11-15 2017-05-10 国家电网公司 基于多数据源及专家规则库的电网故障诊断方法及装置
CN109358602A (zh) * 2018-10-23 2019-02-19 山东中创软件商用中间件股份有限公司 一种故障分析方法、装置及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105266A1 (zh) * 2020-11-17 2022-05-27 日立楼宇技术(广州)有限公司 电梯故障预测方法、系统、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111638989B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN108322347A (zh) 数据检测方法、装置、检测服务器及存储介质
CN116450399B (zh) 微服务系统故障诊断及根因定位方法
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
CN116975378B (zh) 一种基于大数据的设备环境监测方法及系统
CN113535454B (zh) 一种日志数据异常检测的方法及设备
CN114201374A (zh) 基于混合机器学习的运维时序数据异常检测方法及系统
CN113806171A (zh) 一种服务器健康评估方法、系统、设备以及介质
CN114037219A (zh) 一种数据评估方法、装置及电子设备
CN110598959A (zh) 一种资产风险评估方法、装置、电子设备及存储介质
CN113806343B (zh) 一种车联网数据质量的评估方法和系统
CN111638989A (zh) 故障诊断方法、装置、存储介质及设备
CN109639456B (zh) 一种自动化告警的改进方法及告警数据的自动化处理平台
CN111177139A (zh) 基于数据质量体系的数据质量验证监控及预警方法和系统
CN114116391A (zh) Redis实例的健康检测方法、装置、设备及存储介质
CN113283768A (zh) 食品检测项目提取方法、装置、设备及存储介质
CN110991241A (zh) 异常识别方法、设备及计算机可读介质
CN111563111A (zh) 告警方法、装置、电子设备及存储介质
US11954945B2 (en) Systems and methods for analyzing machine performance
CN110837504A (zh) 一种工控系统异常系统事件识别方法
CN114430361B (zh) 一种异常带宽检测方法、装置、电子设备及存储介质
CN115658441A (zh) 一种基于日志的家政业务系统异常监控方法、设备及介质
CN113033673A (zh) 电机工况异常检测模型的训练方法及系统
CN112732773A (zh) 一种继电保护缺陷数据的唯一性校核方法及系统
CN110956340A (zh) 工程试验检测数据管理预警决策方法
CN113988329B (zh) 一种基于匹配度计算的天然气管道压缩机组故障分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant