CN117670298A - 一种故障检测方法、电子设备及存储介质 - Google Patents
一种故障检测方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117670298A CN117670298A CN202311663128.1A CN202311663128A CN117670298A CN 117670298 A CN117670298 A CN 117670298A CN 202311663128 A CN202311663128 A CN 202311663128A CN 117670298 A CN117670298 A CN 117670298A
- Authority
- CN
- China
- Prior art keywords
- fault detection
- time
- predicted
- service data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 223
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 13
- 230000015654 memory Effects 0.000 claims description 38
- 230000007246 mechanism Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004140 cleaning Methods 0.000 claims description 9
- 230000002265 prevention Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 abstract description 17
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000012545 processing Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000007787 long-term memory Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种故障检测方法、电子设备及存储介质;该方法包括:确定待预测时间;根据待预测时间确定待预测业务数据序列,并根据待预测时间对候选的故障检测模型进行筛选,确定目标故障检测模型;将待预测业务数据序列输入到目标故障检测模型中进行故障检测,根据目标故障检测模型的输出结果确定故障检测结果,解决了故障检测过程中无法对不同时间段的数据进行针对性分析导致的故障检测准确性较低的问题,实现对待预测时间的针对性检测,根据待预测时间选择合适的目标故障检测模型进行故障检测,提高故障检测结果的准确性,方便运维人员及时发现故障并对故障进行维修,保证业务稳定运行。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种故障检测方法、电子设备及存储介质。
背景技术
早期的运维工作大部分是由运维人员手工完成的,人工运维在业务快速扩张、人力成本高企的时代,难以维系。传统运维是由人来发起运维事件,运维人员被动、效率低,并且系统的异构性大,缺乏高效的运维流程。于是,自动化运维应运而生,它主要通过可被自动触发、预定义规则的脚本,来执行常见、重复性的运维工作,从而减少人力成本,提高运维的效率。
自动化运维过程中,可以通过对业务数据进行分析自动发现故障,但是,现有技术中检测是否发生故障时无法对不同时间段的数据进行针对性的分析,导致故障检测准确性较低。
发明内容
本发明提供了一种故障检测方法、电子设备及存储介质,以解决故障检测过程中无法对不同时间段的数据进行针对性分析导致的故障检测准确性较低的问题。
根据本发明的一方面,提供了一种故障检测方法,包括:
确定待预测时间;
根据所述待预测时间确定待预测业务数据序列,并根据所述待预测时间对候选的故障检测模型进行筛选,确定目标故障检测模型;
将所述待预测业务数据序列输入到目标故障检测模型中进行故障检测,根据所述目标故障检测模型的输出结果确定故障检测结果。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的故障检测方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的故障检测方法。
本发明实施例的技术方案,通过确定待预测时间;根据所述待预测时间确定待预测业务数据序列,并根据所述待预测时间对候选的故障检测模型进行筛选,确定目标故障检测模型;将所述待预测业务数据序列输入到目标故障检测模型中进行故障检测,根据所述目标故障检测模型的输出结果确定故障检测结果,解决了故障检测过程中无法对不同时间段的数据进行针对性分析导致的故障检测准确性较低的问题,在确定待预测时间后,根据待预测时间选择用于进行故障检测的待预测业务数据序列,并通过待预测时间对候选的故障检测模型进行筛选,得到目标故障检测模型,基于目标故障检测模型对待预测业务数据序列进行故障检测,可以实现对待预测时间的针对性检测,根据待预测时间选择合适的模型进行故障检测,提高故障检测结果的准确性,方便运维人员及时发现故障并对故障进行维修,保证业务稳定运行。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种故障检测方法的流程图;
图2是根据本发明实施例二提供的一种故障检测方法的流程图;
图3是根据本发明实施例二提供的一种目标故障检测模型的结构示意图;
图4是根据本发明实施例三提供的一种故障检测装置的结构示意图;
图5是实现本发明实施例的故障检测方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供的一种故障检测方法的流程图,本实施例可适用于对故障进行检测情况,该方法可以由故障检测装置来执行,该故障检测装置可以采用硬件和/或软件的形式实现,该故障检测装置可配置于电子设备中。如图1所示,该方法包括:
S101、确定待预测时间。
在本实施例中,待预测时间具体可以理解为具有故障预测需求的时间。待预测时间可以由用户设置或者输入,例如,用户在具有故障检测需求时输入一个时间作为待预测时间,或者,用户可以预先生成一个时间表,在表中写入所有需要检测的时间,本执行设备读取此时间表,当检测到当前时刻在时间表中存在时,确定当前时间为待预测时间;待预测时间也可以预先设置触发条件,将满足此触发条件的时间点作为待预测时间,触发条件可以是与时间相关的条件,也可以是与业务相关的条件等等;当触发条件为与业务相关的条件时,可以检测每个时刻的业务数据是否满足触发条件,若是,则将此时刻确定为待预测时间;当触发条件为与时间相关的条件时,可以直接判断当前时间是否满足触发条件,若满足,则将当前时间确定为待预测时间。本申请实施例对待预测时间的确定方式不进行限定。
S102、根据待预测时间确定待预测业务数据序列,并根据待预测时间对候选的故障检测模型进行筛选,确定目标故障检测模型。
在本实施例中,待预测业务数据序列具体可以理解为用于进行故障检测的业务数据所形成的序列,业务数据的类型可以是一种或者多种,例如,网络流量、服务器负载、日志等等。故障检测模型具体可以理解为预先训练的神经网络模型,其为LSTM模型,可以根据数据序列进行预测,本申请实施例中的候选的故障检测模型为多个。目标故障检测模型具体可以理解为与待预测时间匹配的故障检测模型。
对待预测时间进行分析,确定其对应的预测所用的最优时间长度、数据量大小,等等,基于最优时间长度、数据量大小等获取历史数据,得到待预测业务数据序列;同时根据时间长度、数据量大小等数据与候选的故障检测模型的关联关系对候选的故障检测模型进行筛选,确定与待预测时间匹配的目标故障检测模型。
S103、将待预测业务数据序列输入到目标故障检测模型中进行故障检测,根据目标故障检测模型的输出结果确定故障检测结果。
在本实施例中,故障检测结果可以是有故障/无故障,也可以是故障概率,同时在有故障的情况下输出故障类型,等等故障相关信息。
将待预测业务数据序列输入到目标故障检测模型中,目标故障检测模型根据预先学习到的知识对待预测业务数据序列进行分析处理,确定是否有故障发生,并作为目标故障检测模型的输出结果进行输出。基于目标故障检测模型的输出结果确定故障检测结果,目标故障检测模型的输出结果可以直接作为故障检测结果,也可以通过分析处理得到符合要求规范的故障检测结果,例如,目标故障检测模型的输出结果为有故障的概率为20%,故障类型为A,通过分析可以确定故障概率较低,小于设定的阈值,确定故障检测结果为无故障。
本发明实施例提供了一种故障检测方法,通过确定待预测时间;根据所述待预测时间确定待预测业务数据序列,并根据所述待预测时间对候选的故障检测模型进行筛选,确定目标故障检测模型;将所述待预测业务数据序列输入到目标故障检测模型中进行故障检测,根据所述目标故障检测模型的输出结果确定故障检测结果,解决了故障检测过程中无法对不同时间段的数据进行针对性分析导致的故障检测准确性较低的问题,在确定待预测时间后,根据待预测时间选择用于进行故障检测的待预测业务数据序列,并通过待预测时间对候选的故障检测模型进行筛选,得到目标故障检测模型,基于目标故障检测模型对待预测业务数据序列进行故障检测,可以实现对待预测时间的针对性检测,根据待预测时间选择合适的模型进行故障检测,提高故障检测结果的准确性,方便运维人员及时发现故障并对故障进行维修,保证业务稳定运行。
实施例二
图2为本发明实施例二提供的一种故障检测方法的流程图,本实施例在上述实施例的基础上进行细化。如图2所示,该方法包括:
S201、确定待预测时间。
S202、基于待预测时间查询预先生成的时间窗口数据表,确定待预测时间对应的目标时间窗口长度。
在本实施例中,时间窗口数据表具体可以理解为存储时间及其对应的时间窗口长度的数据表,时间窗口数据表中存储的时间可以是时间区域也可以是时间点。目标时间窗口长度具体可以理解为与待预测时间匹配的时间窗口长度,时间窗口长度可以是1h、3h、6h、12h、24h等等。
预先对不同的时间点或者时间段进行分析,确定每个时间点或者时间段对应的时间窗口长度,以时间窗口长度等于T为例,时间窗口长度用于表示此时间点的故障概率与时长为T的历史时间内的数据的相关性最高。在确定每个时间点或者时间段对应的时间窗口长度后,根据对应关系生成时间窗口数据表。基于待预测时间查询预先生成的时间窗口数据表,确定时间窗口数据表中与其匹配的时间点或者时间段,当时间窗口数据表中存储的是时间点时,可以计算表中的时间点与待预测时间的时间差,确定与待预测时间距离最近的一个时间点,将此时间点对应的时间窗口长度确定为目标时间窗口长度;当时间窗口数据表中存储的是时间段时,可以判断待预测时间在哪一个时间段中,将此时间段对应的时间窗口长度确定为目标时间窗口长度。
S203、基于目标时间窗口长度和待预测时间获取业务数据集,并基于业务数据集形成待预测业务数据序列。
在本实施例中,业务数据集具体可以理解为存储业务数据的数据集,业务数据集中的业务数据包括不同时间点的业务数据,每个时间点的业务数据可以是一种类型的业务数据,也可以是多种类型的业务数据。
基于目标时间窗口长度和待预测时间确定所需获取的数据对应的时间起点和时间终点,获取时间起点和时间终点范围内的业务数据,形成业务数据集,对业务数据集中的数据按照一定的规范进行处理,得到按照时间排序的待预测业务数据序列。例如,目标时间窗口长度为T为例,将待预测时间作为时间起点,将历史时间中距离待预测时间为T的时间点作为时间终点,进而获取业务数据集,即以待预测时间作为时间起点,获取其向前的T时刻内的历史数据形成业务数据集。
作为本实施例的一个可选实施例,本可选实施例进一步将基于业务数据集形成待预测业务数据序列,优化为:
A1、对业务数据集中的业务数据进行数据清洗、预处理和特征提取,得到备选业务数据。
在本实施例中,备选业务数据具体可以理解为业务数据经处理后可用于进行故障预测的数据。
确定业务数据集中的业务数据,对业务数据进行数据清洗,数据清洗包括数据去重、去除异常数据等,对业务数据进行预处理包括将其处理为统一的格式、规范等,对业务数据进行特征提取包括将数据中有助于模型进行故障识别的数据提取出来,等等。本步骤对业务数据进行数据清洗、预处理和特征提取可以依次进行,最终得到模型可使用的备选业务数据。在对业务数据进行数据清洗时,可以对同一类型的业务数据进行分析完成数据清洗处理,也可以对所有类型的业务数据进行综合分析完成数据清洗处理。
A2、基于各备选业务数据的生成时间对各备选业务数据进行排序,形成待预测业务数据序列。
确定每个备选业务数据的生成时间,同一时间的数据可以记为一组数据,对各组数据按照时间顺序进行排序,形成待预测业务数据序列。
S204、根据目标时间窗口长度对候选的故障检测模型进行筛选,将与目标时间窗口长度匹配的故障检测模型确定为目标故障检测模型。
预先建立每个故障检测模型和目标时间窗口长度的关联关系,在确定目标时间窗口长度后,根据关联关系实现对候选的故障检测模型的筛选,确定与目标时间窗口长度匹配的故障检测模型,将此故障检测模型确定为目标故障检测模型。
作为本实施例的一个可选实施例,本可选实施例进一步对时间窗口数据表的形成步骤进行优化,包括:
B1、获取时间集合,时间集合中包括至少一个待匹配时间区域,时间集合根据节假日和工作时间形成。
在本实施例中,待匹配时间区域具体可以理解为需要与故障检测模型进行匹配的时间区域;时间集合具体可以理解为包含不同的待匹配时间区域的集合。
预先分析一年内的节假日和工作时间,在不同的时间点业务量可以存在不同,例如,以网银交易为例,在节假日、双十一等时间会出现交易高峰,在工作时间交易量较少。通过预先对一年内的节假日和工作时间进行分析,确定具有代表性的时间区域作为待匹配时间区域,基于所有的待匹配时间区域生成时间集合。时间集合可以由用户手动生成,也可以通过编写脚本自动生成,还可以通过对历史业务数据进行分析生成。时间集合在生成后可以存储在指定的空间,在使用时从指定的空间中读取。
B2、针对每个待匹配时间区域,从待匹配时间区域中选择待匹配时间,确定待匹配时间对应的至少一个待验证业务数据序列,其中,待验证业务数据序列与候选的故障检测模型一一对应。
在本实施例中,待匹配时间具体可以理解为用于与故障检测模型进行匹配的时间;待验证业务数据序列具体可以理解为用于对故障检测模型的故障检测精度进行验证的业务数据所形成的序列。
对于每个待匹配区域,均可以通过B2-B4确定其对应的时间窗口长度。从待匹配时间区域中随机选择时间作为待匹配时间,待匹配时间的数量可以是一个或者多个。对于每个待匹配时间均确定每个故障检测模型对其进行故障检测的准确度。预先训练不同时间长度的故障检测模型,即每个故障检测模型的所输入序列的时间长度不同。针对待匹配时间,按照每个候选的故障检测模型的输入序列的时间长度分别从历史数据中获取待验证业务数据序列,每个待验证业务数据序列对应一个故障检测模型。以故障检测模型的输入序列的时间长度分别为1h、3h、6h、12h、24h为例,此时分别获取待匹配时间向前的1h、3h、6h、12h、24h的历史数据,并分别形成待验证业务数据序列。
B3、将各待验证业务数据序列分别输入到对应的故障检测模型中进行故障预测,并根据预测结果确定预测准确度。
在本实施例中,预测准确度可以是准确、不准确、概率、分数等可以描述预测结果是否准确的数据或者信息。将各待验证业务数据序列按照序列的时间长度分别输入到与其对应的故障检测模型中进行故障预测,根据模型的输出结果确定预测结果。由于待匹配时间为历史时间,所以其是否发生故障可以预先确定,将其实际对应的故障发生情况与预测结果进行比较,确定每个故障检测模型对此待匹配时间的故障预测的预测准确度。
B4、比较各预测准确度,确定最高的预测准确度对应的故障检测模型的时间窗口长度,将待匹配时间区域与时间窗口长度进行关联。
比较每个故障检测模型对同一个待检测时间进行故障预测的预测准确度,确定准确度最高的预测准确度,确定此预测准确度对应的故障检测模型对应的时间窗口长度,将待匹配时间区域与此时间窗口长度进行关联,可以表示此段时间内的进行故障检测时使用此时间窗口长度的数据结果最佳。
当待匹配区域中选择的待匹配时间点的数量为多个时,对每个待匹配时间点均采用上述的方式进行故障预测,并确定预测结果,综合所有的待匹配时间点的预测结果确定预测准确度。例如,对每个待匹配区域进行均匀取点,以取100个待匹配时间,故障检测模型为5个为例,对于每个待匹配时间均取5个待验证业务数据序列,对于每个待验证业务数据序列均通过故障检测模型进行故障预测,得到预测结果,比较预测结果和实际故障发生情况确定预测是否准确;此时每个故障检测模型预测100个待匹配时间,根据预测正确和预测错误的数量确定预测准确度;比较各故障检测模型的预测准确度,实现待匹配时间区域与时间窗口长度的关联。
B4、基于各待匹配时间区域及其关联的时间窗口长度形成时间窗口数据表。
在确定每个待匹配时间区域关联的时间窗口长度后,基于关联关系形成时间窗口数据表,对不同的时间区域及其对应的时间窗口长度进行关联存储。
由于故障概率与一段时间内业务数据的积累有关,也即当前时刻的故障概率与过去一段时间的业务数据有关。目标故障检测模型为长短期记忆网络LSTM模型,LSTM的一个优势就是可以记忆任意长度的时间区间的信息,但是,当输入数据选取的时间范围过小时,可能会遗漏有效信息,当选取的时间范围过大时,可能会收录太多无用信息。因此,调整模型的输入时间数据跨度可以有效地提高预测精度。高低峰具有明确的日期特征,如在节假日、双十一等时间会出现业务高峰。基于此特点,本申请对于不同的时间点选取最优的时间输入窗口进行故障检测,以有效提高故障发现率。
S205、将待预测业务数据序列输入到目标故障检测模型中进行故障检测,根据目标故障检测模型的输出结果确定故障检测结果。
作为本实施例的一个可选实施例,本可选实施例进一步对目标故障检测模型的结构进行优化:目标故障检测模型包括:第一长短期记忆网络、防止过拟合层、第二长短期记忆网络、注意力机制层、全连接层。
在本实施例中,第一长短期记忆网络和第二长短期记忆网络均为LSTM网络;防止过拟合层用于防止模型过拟合,其可以是Dropout层。
作为本实施例的一个可选实施例,本可选实施例进一步对将待预测业务数据序列输入到目标故障检测模型中进行故障检测进行优化,包括:将待预测业务数据序列输入到目标故障检测模型中,依次经过第一长短期记忆网络、防止过拟合层、第二长短期记忆网络、注意力机制层和全连接层进行故障检测;
其中,第一长短期记忆网络包括256个单元,第二长短期记忆网络包括64个单元。
将待预测业务数据序列作为模型的输入,输入到目标故障检测模型中,依次经过第一长短期记忆网络、防止过拟合层、第二长短期记忆网络、注意力机制层和全连接层进行处理,实现故障检测,并由全连接层输出模型的输出结果。
示例性的,图3提供一种目标故障检测模型的结构示意图,目标故障检测模型包括:第一长短期记忆网络31、防止过拟合层32、第二长短期记忆网络33、注意力机制层34、全连接层35顺次连接。数据从第一长短期记忆网络31输入,并从全连接层35输出。
传统的循环神经网络结构在训练过程中,默认输入的各个信息节点的重要性是一样的,但实际上不同节点对于目标特征的影响程度是不一样的。为了提升预测模型的性能和预测的准确度,本发明在长短期记忆网络LSTM的基础上引入了注意力Attention机制,本申请使用了两层LSTM和一层Attention作为训练的模型,将待预测业务数据序列作为模型的输入传入第一长短期记忆网络31,这一层设置256个单元,在第二长短期记忆网络33设置64个单元,两个LSTM之间添加防止过拟合层32(Dropout层)来减少连接的数量并减少训练时的参数量防止过拟合。第二长短期记忆网络33的输出将会进入注意力机制层34进行下一步的学习,最后通过一个全连接层35输出结果。
可选的,待预测业务数据序列中的数据类型包括以下一种或者多种:每秒的事务数量;网络流量;服务器负载;应用程序性能;系统日志;交易量;业务成功率。
需要知道的是,在模型训练过程以及时间窗口数据表生成过程中,若涉及到通过模型进行数据处理,模型所输入的数据类型均可以包括上述的一种或者多种。
可选的,故障检测结果包括故障类型和故障概率。
S206、若故障检测结果中的故障概率大于设定阈值,触发预警机制进行预警。
预先根据业务场景设置阈值,例如,阈值设置为40%。在确定故障检测结果后,确定故障检测结果中的故障概率,比较故障概率与设定阈值的大小,若故障概率大于设定阈值,触发预警机制进行故障预警。
其中,预警机制包括:向设定的用户推送信息,以便用户对故障进行处理。
设定的用户的数量可以是一个或者多个,可以根据业务划分进行设置,设定的用户通常是运维人员。向设定的用户推送信息的方式可以是短信、邮件、微信等等,以便用户及时对故障进行处理。
本发明实施例提供了一种故障检测方法,解决了故障检测过程中无法对不同时间段的数据进行针对性分析导致的故障检测准确性较低的问题。分析业务数据与时间的关系,为不同时间点选择不同的时间窗口长度。通过时间窗口长度选择用于进行故障检测业务数据序列和目标故障检测模型进行故障检测,提高故障检测精度;方便运维人员及时发现故障并对故障进行维修,保证业务稳定运行。通过一种结合注意力机制和LSTM的故障检测模型进行故障检测,通过使用更加通用准确的预测算法,结合真实的服务场景实现了更加准确、高效的自动化异常检测。
实施例三
图4为本发明实施例三提供的一种故障检测装置的结构示意图。如图4所示,该装置包括:预测时间获取模块41、目标模型选择模块42和故障检测模块43。
预测时间获取模块41,用于确定待预测时间;
目标模型选择模块42,用于根据所述待预测时间确定待预测业务数据序列,并根据所述待预测时间对候选的故障检测模型进行筛选,确定目标故障检测模型;
故障检测模块43,用于将所述待预测业务数据序列输入到目标故障检测模型中进行故障检测,根据所述目标故障检测模型的输出结果确定故障检测结果。
本发明实施例提供了一种故障检测装置,解决了故障检测过程中无法对不同时间段的数据进行针对性分析导致的故障检测准确性较低的问题,在确定待预测时间后,根据待预测时间选择用于进行故障检测的待预测业务数据序列,并通过待预测时间对候选的故障检测模型进行筛选,得到目标故障检测模型,基于目标故障检测模型对待预测业务数据序列进行故障检测,可以实现对待预测时间的针对性检测,根据待预测时间选择合适的模型进行故障检测,提高故障检测结果的准确性,方便运维人员及时发现故障并对故障进行维修,保证业务稳定运行。
可选的,目标模型选择模块42,包括:
时间窗口长度获取单元,用于基于所述待预测时间查询预先生成的时间窗口数据表,确定所述待预测时间对应的目标时间窗口长度;
待预测序列形成单元,用于基于所述目标时间窗口长度和待预测时间获取业务数据集,并基于所述业务数据集形成待预测业务数据序列。
可选的,待预测序列形成单元,具体用于:对所述业务数据集中的业务数据进行数据清洗、预处理和特征提取,得到备选业务数据;基于各所述备选业务数据的生成时间对各所述备选业务数据进行排序,形成待预测业务数据序列。
可选的,目标模型选择模块42,包括:
模型筛选单元,用于根据所述目标时间窗口长度对候选的故障检测模型进行筛选,将与所述目标时间窗口长度匹配的故障检测模型确定为目标故障检测模型。
可选的,该装置包括:
时间集合获取模块,用于获取时间集合,所述时间集合中包括至少一个待匹配时间区域,所述时间集合根据节假日和工作时间形成;
待验证序列获取模块,用于针对每个待匹配时间区域,从所述待匹配时间区域中选择待匹配时间,确定所述待匹配时间对应的至少一个待验证业务数据序列,其中,所述待验证业务数据序列与候选的故障检测模型一一对应;
预测准确度确定模块,用于将各所述待验证业务数据序列分别输入到对应的故障检测模型中进行故障预测,并根据预测结果确定预测准确度;
关联模块,用于比较各所述预测准确度,确定最高的预测准确度对应的故障检测模型的时间窗口长度,将所述待匹配时间区域与所述时间窗口长度进行关联;
数据表形成模块,用于基于各所述待匹配时间区域及其关联的时间窗口长度形成时间窗口数据表。
可选的,所述目标故障检测模型包括:第一长短期记忆网络、防止过拟合层、第二长短期记忆网络、注意力机制层、全连接层;
可选的,故障检测模块43具体用于:将所述待预测业务数据序列输入到目标故障检测模型中,依次经过所述第一长短期记忆网络、防止过拟合层、第二长短期记忆网络、注意力机制层和全连接层进行故障检测;其中,所述第一长短期记忆网络包括256个单元,所述第二长短期记忆网络包括64个单元。
可选的,待预测业务数据序列中的数据类型包括以下一种或者多种:每秒的事务数量;网络流量;服务器负载;应用程序性能;系统日志;交易量;业务成功率。
可选的,所述故障检测结果包括故障类型和故障概率;
可选的,该装置还包括:
预警模块,用于若所述故障检测结果中的故障概率大于设定阈值,触发预警机制进行预警;
其中,所述预警机制包括:向设定的用户推送信息,以便所述用户对故障进行处理。
本发明实施例所提供的故障检测装置可执行本发明任意实施例所提供的故障检测方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5示出了可以用来实施本发明的实施例的电子设备50的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图5所示,电子设备50包括至少一个处理器51,以及与至少一个处理器51通信连接的存储器,如只读存储器(ROM)52、随机访问存储器(RAM)53等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器51可以根据存储在只读存储器(ROM)52中的计算机程序或者从存储单元58加载到随机访问存储器(RAM)53中的计算机程序,来执行各种适当的动作和处理。在RAM 53中,还可存储电子设备50操作所需的各种程序和数据。处理器51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。
电子设备50中的多个部件连接至I/O接口55,包括:输入单元56,例如键盘、鼠标等;输出单元57,例如各种类型的显示器、扬声器等;存储单元58,例如磁盘、光盘等;以及通信单元59,例如网卡、调制解调器、无线通信收发机等。通信单元59允许电子设备50通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器51可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器51的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器51执行上文所描述的各个方法和处理,例如故障检测方法。
在一些实施例中,故障检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元58。在一些实施例中,计算机程序的部分或者全部可以经由ROM 52和/或通信单元59而被载入和/或安装到电子设备50上。当计算机程序加载到RAM 53并由处理器51执行时,可以执行上文描述的故障检测方法的一个或多个步骤。备选地,在其他实施例中,处理器51可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行故障检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种故障检测方法,其特征在于,包括:
确定待预测时间;
根据所述待预测时间确定待预测业务数据序列,并根据所述待预测时间对候选的故障检测模型进行筛选,确定目标故障检测模型;
将所述待预测业务数据序列输入到目标故障检测模型中进行故障检测,根据所述目标故障检测模型的输出结果确定故障检测结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待预测时间确定待预测业务数据序列,包括:
基于所述待预测时间查询预先生成的时间窗口数据表,确定所述待预测时间对应的目标时间窗口长度;
基于所述目标时间窗口长度和待预测时间获取业务数据集,并基于所述业务数据集形成待预测业务数据序列。
3.根据权利要求2所述的方法,其特征在于,所述基于所述业务数据集形成待预测业务数据序列,包括:
对所述业务数据集中的业务数据进行数据清洗、预处理和特征提取,得到备选业务数据;
基于各所述备选业务数据的生成时间对各所述备选业务数据进行排序,形成待预测业务数据序列。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待预测时间对候选的故障检测模型进行筛选,确定目标故障检测模型,包括:
基于所述待预测时间查询预先生成的时间窗口数据表,确定所述待预测时间对应的目标时间窗口长度;
根据所述目标时间窗口长度对候选的故障检测模型进行筛选,将与所述目标时间窗口长度匹配的故障检测模型确定为目标故障检测模型。
5.根据权利要求2或4所述的方法,其特征在于,所述时间窗口数据表的形成步骤包括:
获取时间集合,所述时间集合中包括至少一个待匹配时间区域,所述时间集合根据节假日和工作时间形成;
针对每个待匹配时间区域,从所述待匹配时间区域中选择待匹配时间,确定所述待匹配时间对应的至少一个待验证业务数据序列,其中,所述待验证业务数据序列与候选的故障检测模型一一对应;
将各所述待验证业务数据序列分别输入到对应的故障检测模型中进行故障预测,并根据预测结果确定预测准确度;
比较各所述预测准确度,确定最高的预测准确度对应的故障检测模型的时间窗口长度,将所述待匹配时间区域与所述时间窗口长度进行关联;
基于各所述待匹配时间区域及其关联的时间窗口长度形成时间窗口数据表。
6.根据权利要求1所述的方法,其特征在于,所述目标故障检测模型包括:第一长短期记忆网络、防止过拟合层、第二长短期记忆网络、注意力机制层、全连接层;所述将所述待预测业务数据序列输入到目标故障检测模型中进行故障检测,包括:
将所述待预测业务数据序列输入到目标故障检测模型中,依次经过所述第一长短期记忆网络、防止过拟合层、第二长短期记忆网络、注意力机制层和全连接层进行故障检测;
其中,所述第一长短期记忆网络包括256个单元,所述第二长短期记忆网络包括64个单元。
7.根据权利要求1所述的方法,其特征在于,待预测业务数据序列中的数据类型包括以下一种或者多种:每秒的事务数量;网络流量;服务器负载;应用程序性能;系统日志;交易量;业务成功率。
8.根据权利要求1所述的方法,其特征在于,所述故障检测结果包括故障类型和故障概率;
相应的,所述方法还包括:
若所述故障检测结果中的故障概率大于设定阈值,触发预警机制进行预警;
其中,所述预警机制包括:向设定的用户推送信息,以便所述用户对故障进行处理。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的故障检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的故障检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311663128.1A CN117670298A (zh) | 2023-12-06 | 2023-12-06 | 一种故障检测方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311663128.1A CN117670298A (zh) | 2023-12-06 | 2023-12-06 | 一种故障检测方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117670298A true CN117670298A (zh) | 2024-03-08 |
Family
ID=90072864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311663128.1A Pending CN117670298A (zh) | 2023-12-06 | 2023-12-06 | 一种故障检测方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117670298A (zh) |
-
2023
- 2023-12-06 CN CN202311663128.1A patent/CN117670298A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108537544B (zh) | 一种交易系统实时监控方法及其监控系统 | |
CN116049146B (zh) | 一种数据库故障处理方法、装置、设备及存储介质 | |
CN116225769B (zh) | 一种系统故障根因的确定方法、装置、设备及介质 | |
CN116090605A (zh) | 一种管网预警方法、装置、电子设备及存储介质 | |
CN114090601B (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
CN114417118A (zh) | 一种异常数据处理方法、装置、设备以及存储介质 | |
CN116962272B (zh) | 一种网络指标的异常检测方法、装置、设备及存储介质 | |
CN116755974A (zh) | 云计算平台运维方法、装置、电子设备及存储介质 | |
CN115048352B (zh) | 一种日志字段提取方法、装置、设备和存储介质 | |
CN117670298A (zh) | 一种故障检测方法、电子设备及存储介质 | |
CN115599687A (zh) | 一种软件测试场景的确定方法、装置、设备及介质 | |
CN114881112A (zh) | 一种系统异常检测方法、装置、设备及介质 | |
CN113887101A (zh) | 网络模型的可视化方法、装置、电子设备及存储介质 | |
CN114120180A (zh) | 一种时序提名的生成方法、装置、设备及介质 | |
CN116820826B (zh) | 一种基于调用链的根因定位方法、装置、设备及存储介质 | |
CN116627695B (zh) | 一种告警事件根因推荐方法、装置、设备及存储介质 | |
CN116186549B (zh) | 模型的训练方法、装置、设备和介质 | |
CN117608896A (zh) | 交易数据处理方法、装置、电子设备及存储介质 | |
CN115774648A (zh) | 一种异常定位方法、装置、设备以及存储介质 | |
CN117633226A (zh) | 一种分类方法、装置、存储介质及电子设备 | |
CN117376982A (zh) | 一种服务节点容量控制方法、装置、设备及存储介质 | |
CN118037414A (zh) | 一种项目风险管理方法、装置、电子设备及存储介质 | |
CN115965276A (zh) | 指标集确定方法、装置、电子设备以及存储介质 | |
CN117493060A (zh) | 数据库组件异常检测方法、装置、设备及介质 | |
CN116302370A (zh) | 一种返回码异常告警的生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |