CN113065001A - 一种故障止损方法及装置 - Google Patents

一种故障止损方法及装置 Download PDF

Info

Publication number
CN113065001A
CN113065001A CN202110371982.5A CN202110371982A CN113065001A CN 113065001 A CN113065001 A CN 113065001A CN 202110371982 A CN202110371982 A CN 202110371982A CN 113065001 A CN113065001 A CN 113065001A
Authority
CN
China
Prior art keywords
fault
loss
loss stopping
stopping
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110371982.5A
Other languages
English (en)
Inventor
刘威
李国莹
苑志云
王艳华
常冬冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110371982.5A priority Critical patent/CN113065001A/zh
Publication of CN113065001A publication Critical patent/CN113065001A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开一种故障止损方法及装置。止损模型可基于输入的新发现故障和前述的映射关系,提供与新发现故障适配的止损措施,形成候选止损措施列表。本申请中基于业务影响分析结果和收集到的故障上下文特征对候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表。排序得到的新的列表为当前的新发现故障提供了优选的止损措施。调用排序后的止损措施列表中推荐的止损措施对应的执行策略对新发现故障进行止损,能够有效降低故障对业务的影响。对新发现故障的止损具有一定的灵活性和通用性,止损模型所提供的丰富的映射关系为新发现故障提供多种候选止损措施,故障止损覆盖性较强,能够做到更加及时、快速的止损,遏制业务影响进一步加重。

Description

一种故障止损方法及装置
技术领域
本申请涉及故障检测与运维技术领域,特别是涉及一种故障止损方法及装置。
背景技术
在当前微服务和分布式架构普及、信息技术(Information Technology,IT)基础设施云化、业务场景快速迭代发展的形势下,IT架构、IT环境发生了深刻变化,各种新兴技术在促进业务发展的同时又极大地增加了IT系统的复杂度,故障应急处置面临着越来越大的压力。
目前互联网、金融、电力、通信等相关企业都在布局智能运维(AIOps)、网站可靠性工程(Site Reliability Engineering,SRE)相关技术,以图快速发现故障并且处置故障。AIOps基于IT系统运行产生的运维数据如交易监控数据、日志、配置等通过人工智能技术解决运维中的问题,进一步提高系统的可用性,目前常见的应用场景有异常检测、告警收敛、故障诊断、故障预测、故障自愈、容量规划等。不管是传统运维,还是智能运维,故障自愈都是着力解决的核心问题之一,目前主流的故障自愈一般包含三个步骤,即故障发现(及时、准确发现故障)、故障诊断(及时、准确诊断出故障根因)、故障处置(根据故障现象或者推断的根因自动处置和恢复)。其核心在于首先需要明确当前故障的根因,然后从故障库中一对一精准匹配自愈方案。
在当前越来越复杂的IT环境下,故障根因层出不穷,不可枚举,而且新的故障根源不断涌现,几乎不可能建立故障根因-自愈方案的完全匹配模型。并且目前的故障自愈方案存在以下一些问题:
一是解决的都是特定的故障场景,如分布式系统领域、数据库领域,对复杂的故常场景效果较差;二是只能解决已知故障场景,要么利用专家经验搭建专家系统,要么基于以往的事件工单做数据挖掘,故障自愈基本上是从故障库中匹配止损方案;三是能够进行的止损方案较为单一,依赖于对故障根因的分析,不能根据故障现场的特征灵活变通,也不具备举一反三的能力,以应对未知但是和已经场景具有一定相似性的场景。
因此,基于故障根因实现故障自愈不但难度较大,通用性也较差。因此,在许多场景下难以遏制故障对业务的影响。
发明内容
基于上述问题,本申请提供了一种故障止损方法及装置,以有效降低故障对业务的影响。
本申请实施例公开了如下技术方案:
第一方面,本申请提供了一种故障止损方法,包括:
收集新发现故障的故障现象;
将所述新发现故障的故障现象输入止损模型中,得到所述新发现故障的候选止损措施列表;所述止损模型包括:已知故障现象与止损措施的映射关系,其中,一种已知故障现象至少对应一种止损措施;所述候选止损措施列表中包括至少一种止损措施;
根据业务影响分析结果以及收集到的故障上下文特征对所述候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表;所述业务影响分析结果包括:所述新发现故障对业务的影响因子,以及执行所述候选止损措施列表中每一种止损措施对所述业务产生的潜在影响因子;所述故障上下文特征包括:所述新发现故障的场景中对止损措施的执行产生影响的信息;
调用所述排序后的止损措施列表中推荐的止损措施对应的执行策略,对所述新发现故障进行止损。
可选地,所述收集新发现故障的故障现象,包括:
从当前时间窗口中的所有告警中去除次要内容,识别出所述新发现故障的相关告警;
根据所述新发现故障的相关告警生成所述新发现故障的告警摘要;
根据所述告警摘要获得所述新发现故障的故障现象;所述故障现象包括对所述新发现故障的场景进行描述的正常和异常指标集合。
可选地,所述从当前时间窗口中的所有告警中去除次要内容,识别出所述新发现故障的相关告警,包括:
将所述当前时间窗口中的所有告警分别与重要告警列表、高频告警列表以及低频告警列表进行匹配;所述重要告警列表为依据人工故障告警经验维护的告警列表;所述高频告警列表和所述低频告警列表为依据历史告警提取告警的属性和特征进行分析后生成的,所述高频告警列表中告警的发生频率高于所述低频告警列表中告警的发生频率;
对于所述所有告警中与所述高频告警列表匹配成功的告警,将其作为次要内容;而所述所有告警中与所述重要告警列表或者所述低频告警列表匹配成功的告警作为需要关注的告警;
对所述需要关注的告警进行聚类,形成的每一个类簇对应于一种新发现故障。
可选地,已知故障现象与止损措施的映射关系包括权重函数,所述权重函数的值表示在已知故障现象发生时实施具有映射关系的止损措施恢复故障的概率;
所述将所述新发现故障的故障现象输入止损模型中,得到所述新发现故障的候选止损措施列表,包括:
获得所述新发现故障的故障现象与所述止损模型中已知故障现象的相似度;
确定所述止损模型中与所述新发现故障的故障现象相似度最高的已知故障现象;
将与所述相似度最高的已知故障现象具有映射关系的止损措施列入所述候选止损措施列表中,并将所述相似度最高的已知故障现象对应的相似度与权重函数相乘,得到所述候选止损措施列表中各个止损措施对应的新的权重值。
可选地,在所述调用所述排序后的止损措施列表中推荐的止损措施对应的执行策略时,所述方法还包括:
收集所述新发现故障的故障现场,以便故障恢复后根据收集的故障现场分析所述新发现故障的根因。
可选地,每一种执行策略配置有急停策略,所述急停策略用于在执行所述执行策略导致故障继续恶化时启动以暂停止损操作或者回退止损。
可选地,在所述对所述新发现故障进行止损时,所述方法还包括:
检测所述新发现故障的告警集合的恢复情况,以检测所述新发现故障的恢复情况。
可选地,所述止损模型为基于专家经验和历史工单学习后得到有关所述已知故障现象与止损措施的映射关系的模型。
可选地,方法还包括:
获得用户对所述排序后的止损措施列表中止损措施的选择结果;
所述调用所述排序后的止损措施列表中推荐的止损措施对应的执行策略,具体包括:
调用所述选择结果指向的止损措施对应的执行策略。
可选地,方法还包括:
根据所述选择结果指向的止损措施在所述排序后的止损措施列表的排序值,以及所述选择结果指向的止损措施对应的执行策略的执行效果,进行以下至少一种操作:
对所述止损模型进行增量更新,或,对所述候选止损措施列表中止损措施的排序算法进行优化。
本申请第二方面提供了一种故障止损装置,包括:
故障现象收集模块,用于收集新发现故障的故障现象;
列表获取模块,用于将所述新发现故障的故障现象输入止损模型中,得到所述新发现故障的候选止损措施列表;所述止损模型包括:已知故障现象与止损措施的映射关系,其中,一种已知故障现象至少对应一种止损措施;所述候选止损措施列表中包括至少一种止损措施;
排序模块,用于根据业务影响分析结果以及收集到的故障上下文特征对所述候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表;所述业务影响分析结果包括:所述新发现故障对业务的影响因子,以及执行所述候选止损措施列表中每一种止损措施对所述业务产生的潜在影响因子;所述故障上下文特征包括:所述新发现故障的场景中对止损措施的执行产生影响的信息;
故障止损模块,用于调用所述排序后的止损措施列表中推荐的止损措施对应的执行策略,对所述新发现故障进行止损。
可选地,所述故障现象收集模块,包括:
筛除单元,用于从当前时间窗口中的所有告警中去除次要内容,识别出所述新发现故障的相关告警;
告警摘要生成单元,用于根据所述新发现故障的相关告警生成所述新发现故障的告警摘要;
故障现象收集单元,用于根据所述告警摘要获得所述新发现故障的故障现象;所述故障现象包括对所述新发现故障的场景进行描述的正常和异常指标集合。
可选地,所述筛除单元,包括:
告警匹配子单元,用于将所述当前时间窗口中的所有告警分别与重要告警列表、高频告警列表以及低频告警列表进行匹配;所述重要告警列表为依据人工故障告警经验维护的告警列表;所述高频告警列表和所述低频告警列表为依据历史告警提取告警的属性和特征进行分析后生成的,所述高频告警列表中告警的发生频率高于所述低频告警列表中告警的发生频率;
次要内容识别子单元,用于对于所述所有告警中与所述高频告警列表匹配成功的告警,将其作为次要内容;
关注内容识别子单元,用于将所述所有告警中与所述重要告警列表或者所述低频告警列表匹配成功的告警作为需要关注的告警;
告警聚类子单元,用于对所述需要关注的告警进行聚类,形成的每一个类簇对应于一种新发现故障。
可选地,已知故障现象与止损措施的映射关系包括权重函数,所述权重函数的值表示在已知故障现象发生时实施具有映射关系的止损措施恢复故障的概率;
所述列表获取模块,包括:
相似度获取单元,用于获得所述新发现故障的故障现象与所述止损模型中已知故障现象的相似度;
已知故障现象确定单元,用于确定所述止损模型中与所述新发现故障的故障现象相似度最高的已知故障现象;
列表生成单元,用于将与所述相似度最高的已知故障现象具有映射关系的止损措施列入所述候选止损措施列表中;
权重值获取单元,用于将所述相似度最高的已知故障现象对应的相似度与权重函数相乘,得到所述候选止损措施列表中各个止损措施对应的新的权重值。
可选地,所述装置还包括:
故障现场收集模块,用于在所述调用所述排序后的止损措施列表中推荐的止损措施对应的执行策略时,收集所述新发现故障的故障现场,以便故障恢复后根据收集的故障现场分析所述新发现故障的根因。
可选地,每一种执行策略配置有急停策略,所述装置还包括:急停控制模块,用于在执行所述执行策略导致故障继续恶化时启动所述急停策略以暂停止损操作或者回退止损。
可选地,所述装置还包括:
故障恢复检测模块,用于在所述对所述新发现故障进行止损时,检测所述新发现故障的告警集合的恢复情况,以检测所述新发现故障的恢复情况。
可选地,所述止损模型为基于专家经验和历史工单学习后得到有关所述已知故障现象与止损措施的映射关系的模型。
可选地,装置还包括:
选择结果确认模块,用于获得用户对所述排序后的止损措施列表中止损措施的选择结果;
所述故障止损模块,具体用于调用所述选择结果指向的止损措施对应的执行策略。
可选地,装置还包括:
反馈学习模块,用于根据所述选择结果指向的止损措施在所述排序后的止损措施列表的排序值,以及所述选择结果指向的止损措施对应的执行策略的执行效果,进行以下至少一种操作:
对所述止损模型进行增量更新,或,对所述候选止损措施列表中止损措施的排序算法进行优化。
相较于现有技术,本申请具有以下有益效果:
本申请实施例提供的止损方法中,由于止损模型包含有已知故障现象与止损措施的映射关系,因此止损模型能够基于输入的新发现故障和前述的映射关系,提供与新发现故障适配的止损措施,形成候选止损措施列表。在本申请中还基于业务影响分析结果和收集到的故障上下文特征对候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表。因此,排序的依据包括:新发现故障对业务的影响因子,执行候选止损措施列表中每一种止损措施对业务产生的潜在影响因子,以及新发现故障的场景中对止损措施的执行产生影响的信息。如此,排序得到的新的列表为当前的新发现故障提供了优选的止损措施。从而在调用排序后的止损措施列表中推荐的止损措施对应的执行策略对新发现故障进行止损,能够有效降低故障对业务的影响。此外,该方法对于新发现故障的止损具有一定的灵活性和通用性,止损模型所提供的丰富的映射关系能够为新发现故障提供多种候选止损措施,故障止损的覆盖性较强。因此,相比于现有技术中故障自愈方案也能够做到更加及时、快速的止损,遏制业务影响进一步加重。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种故障止损方法的流程图;
图2为本申请实施例提供的止损模型中已知故障现象与止损措施的映射关系示意图;
图3A为本申请实施例提供的另一种故障止损方法的流程图;
图3B为本申请实施例提供的又一种故障止损方法的流程图;
图4为本申请实施例提供的一种故障止损装置的结构示意图;
图5为本申请实施例提供的另一种故障止损装置的结构示意图。
具体实施方式
正如前文描述,目前在运维领域,通常在故障发生后需要明确当前故障的根因,再从故障库中一对一精准匹配自愈方案。故障自愈方案存在以下一些问题:一是解决的都是特定的故障场景,对复杂的故常场景效果较差;二是只能解决已知故障场景;三是提供的止损方案较为单一,依赖于对故障根因的分析,不能根据故障上下文的特征灵活变通,也不具备举一反三的能力,以应对未知但是和已经场景具有一定相似性的场景。因此故障自愈不但难度较大,通用性也较差,在许多场景下难以遏制故障对业务的影响。
对于以上问题,亟需提供一种有效降低故障对业务的影响的方案。为此,发明人经过研究提供了一种故障止损方法及装置。本方案着眼于故障的快速止损而不是故障自愈,目的在于建立一种通用的IT故障止损方案,不仅仅只是解决历史上发生或者人的经验能够覆盖的故障,而是具有一定的推理能力,能够解决未知但是和已知场景具有一定相似性的场景。为了便于理解本申请技术方案,首先对本方案涉及的若干术语名词进行解释:
止损模型:基于专家经验和历史工单学习生成的故障现象与止损措施之间的映射关系。
故障上下文特征:在真实故障场景中能够对止损措施产生影响的信息。
故障现象:一组观测到的能够对故障场景进行详尽描述的正常和异常指标集合,广义的故障现象包括故障根因。
止损措施:能初步缓解或者根本解决当前故障的可执行策略。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例
参见图1,该图为本申请实施例提供的一种故障止损方法的流程图。如图1所示,故障止损方法包括:
步骤101:收集新发现故障的故障现象。
在一种可选的实现方式中,收集新发现故障的故障现象可以包括:
从当前时间窗口中的所有告警中去除次要内容,识别出新发现故障的相关告警。接着,根据新发现故障的相关告警生成新发现故障的告警摘要。最终,根据告警摘要获得新发现故障的故障现象。故障现象包括对新发现故障的场景进行描述的正常和异常指标集合。一个故障现象一般都会对应多条告警,从多条相关的告警中提取摘要对应的是就是故障信息。
在上述操作实施之前,可以预先获得重要告警列表、高频告警列表以及低频告警列表。这些告警列表都是非实例化的。实例化的指的是实际发生的带具体的值的,比如某个对象的成功率告警,由于本实施例方案中只关注该类对象成功率有问题,但是不会关注是哪个具体对象,成功率具体是多少。所以会做一层抽象,形成非实例化的告警列表。重要告警列表、高频告警列表以及低频告警列表主要用于对时间窗口内的告警进行筛选和识别。其中,重要告警列表为依据人工故障告警经验维护的告警列表。高频告警列表和低频告警列表为依据历史告警提取告警的属性和特征进行分析后生成的,高频告警列表中告警的发生频率高于低频告警列表中告警的发生频率。
经常发生的告警通常不会与故障产生联系,因此,在识别故障时具体需要结合告警内容与重要告警列表以及低频告警列表的匹配性进行判断,而高频告警列表则可以用于排除没有故障嫌疑的告警。
从当前时间窗口中的所有告警中去除次要内容,识别出新发现故障的相关告警,包括:
将当前时间窗口中的所有告警分别与重要告警列表、高频告警列表以及低频告警列表进行匹配。对于所有告警中与高频告警列表匹配成功的告警,将其作为次要内容。而所有告警中与重要告警列表或者低频告警列表匹配成功的告警作为需要关注的告警。当确定出需要关注的告警后,对需要关注的告警进行聚类,形成的每一个类簇对应于一种新发现故障。
在一种可选的实现方式中,告警聚类的相似性度量考虑了两种因素,一是通过历史告警和关联规则分析算法(FP-Growth)挖掘出告警序列中隐含的频繁模式,二是对告警做基于语义与关联关系(如配置关系、调用链)的相似性分析。基于上述两种因素进行告警聚类,提升了聚类的准确性。
步骤102:将新发现故障的故障现象输入止损模型中,得到新发现故障的候选止损措施列表。
在本申请实施例中,止损模型是步骤102执行之前预先训练获得的。去具体为基于专家经验和历史工单学习后得到有关已知故障现象与止损措施的映射关系的模型。工单在本方案里指的是故障的处置记录,包括:发生时间、处置过程、故障原因、止损方案、业务影响等。止损模型包括:已知故障现象与止损措施的映射关系,其中,一种已知故障现象至少对应一种止损措施。此外,不同的已知故障现象也可能对应同种止损措施。图2示例性地示出了止损模型中已知故障现象与止损措施的映射关系。
如图2中所示意的,故障现象A对应于止损措施1,故障现象B对应于止损措施1和止损措施2,故障现象C对应于止损措施2,故障现象D对应于止损措施3。当然,图2仅为示例,此处对于止损模型中已知故障现象以及止损措施的具体内容不作限定。
故障现象是一组观测到的能够对故障场景进行详尽描述的正常和异常指标集合,以异常指标居多,并且可以包括故障根因。止损措施是运维人员总结出来的能初步缓解或者根本解决常见故障的可执行操作,如服务重启、故障隔离、服务切换、版本回退、备份恢复、参数修改、流控、集群扩容、业务熔断及业务降级等。在止损模型中,已知故障现象以及对应的止损措施都是非实例化的。
图2中f(x)表示已知故障现象与止损措施的映射关系包括权重函数,权重函数的值表示在已知故障现象发生时实施具有映射关系的止损措施恢复故障的概率。也就是说,权重函数的值越高,表示该权重函数关联的止损措施能为对应的故障止损的概率越高;而反之,如果权重函数的值越低,则表示该权重函数关联的止损措施能够为对应的故障止损的概率越低。
例如,故障现象B在止损措施1的概率为0.8,在止损措施2的概率为0.5,因此表示止损措施1相比于止损措施2为故障现象B止损的概率更高。
需要说明的是,本申请实施例中输入到止损模型的新发现故障的故障现象不需要完全匹配止损模型中的已知故障现象,而是计算二者之间的相似度,最终该相似度被乘入前述的权重函数中。这样,本申请实施例止损模型中的止损措施能够在一定程度上解决未知的故障。提升了此方法的通用性和灵活性。
具体实现时,作为一种可能的实现方式,将新发现故障的故障现象输入止损模型中,得到新发现故障的候选止损措施列表,可以包括:
获得新发现故障的故障现象与止损模型中已知故障现象的相似度。确定止损模型中与新发现故障的故障现象相似度最高的已知故障现象。将与相似度最高的已知故障现象具有映射关系的止损措施列入候选止损措施列表中,并将相似度最高的已知故障现象对应的相似度与权重函数相乘,得到候选止损措施列表中各个止损措施对应的新的权重值。
在以上示例实现方式中,仅考虑了止损模型中与新发现故障的故障现象相似度最高的已知故障现象。当然在其他的实现方式中,还可以参考多个与新发现故障的故障现象相似度较高的已知故障现象,以前述类似的方式将相似度与权重函数相乘,将乘积结果较高的若干止损措施列入候选止损措施列表中。实际应用中,候选止损措施列表中通常包括至少一种止损措施。
步骤103:根据业务影响分析结果以及收集到的故障上下文特征对候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表。
在候选止损措施列表中,为了给用户呈现出更为推荐的止损措施,可以通过做业务影响分析与故障上下文特征分析为各个止损措施排序。
本申请实施例中,业务影响分析结果包括:新发现故障对业务的影响因子,以及执行候选止损措施列表中每一种止损措施对业务产生的潜在影响因子。进行排序时,新发现故障对业务的影响因子越大,越倾向于将能够最快止损的措施优先排在前面。此外,还倾向于将潜在影响因子最小的止损措施优先排在前面。
故障上下文特征并不是故障的特征,而是包括:新发现故障的场景中对止损措施的执行产生影响的信息。例如,集群当前的业务量与CPU使用率,这些信息决定着集群中每次最多能够重启多少服务。
在一种可能的实现方式中,排序需要构建止损效果评价机制,该评价机制的因素包括止损措施的权重、止损措施的作用对象与受影响业务的关联度、止损措施的作用对象的冗余度、止损措施的复杂程度、止损措施的业务影响等。这些因素的计算要利用故障上下文特征。通过止损效果评价机制对候选止损措施列表进行排序,并将排序后的列表推荐给用户,使得用户在选择止损措施时更加便捷,提供更加友好的交互方式。
此外,为了给用户的选择使用提供更多的遍历,排序后的止损措施列表中,每一种止损措施都可以点击查看历史上对应的不同的故障场景。如此,用户也可以参照呈现的故障场景与当前新发现故障的故障场景对止损措施进行选择。
步骤104:调用排序后的止损措施列表中推荐的止损措施对应的执行策略,对新发现故障进行止损。
结合前文的介绍,基于业务影响的分析和鼓掌上下文特征的分析,在排序后的止损措施列表中呈现出了为用户止损新发现故障的推荐止损措施。排序值越靠前的止损措施,为推荐用户优选的止损措施。而用户还可以根据实际故障现场的需求和用户自身对该故障的判断,在排序后的止损措施列表中做出选择。
因此,在本步骤执行之前,还可以获得用户对排序后的止损措施列表中止损措施的选择结果。在本申请实施例中,每个止损措施对应着自动化平台或者云平台的具体的执行策略,因此在确定好止损措施后,可以通过传递参数执行相应的操作。例如,具体重启相应的服务。
本步骤调用排序后的止损措施列表中推荐的止损措施对应的执行策略,具体可以包括:调用选择结果指向的止损措施对应的执行策略。进而通过调用执行策略实现对新发现故障的止损。
本申请实施例提供的故障止损方法中,由于止损模型包含有已知故障现象与止损措施的映射关系,因此止损模型能够基于输入的新发现故障和前述的映射关系,提供与新发现故障适配的止损措施,形成候选止损措施列表。在本申请中还基于业务影响分析结果和收集到的故障上下文特征对候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表。因此,排序的依据包括:新发现故障对业务的影响因子,执行候选止损措施列表中每一种止损措施对业务产生的潜在影响因子,以及新发现故障的场景中对止损措施的执行产生影响的信息。如此,排序得到的新的列表为当前的新发现故障提供了优选的止损措施。从而在调用排序后的止损措施列表中推荐的止损措施对应的执行策略对新发现故障进行止损,能够有效降低故障对业务的影响。
此外,该方法对于新发现故障的止损具有一定的灵活性和通用性,止损模型所提供的丰富的映射关系能够为新发现故障提供多种候选止损措施,故障止损的覆盖性较强。因此,相比于现有技术中故障自愈方案也能够做到更加及时、快速的止损,遏制业务影响进一步加重。
本申请还提供了另一种故障止损方法,下面结合实施例和附图对该方法的实现进行介绍。
参见图3A,该图为本申请实施例提供的另一种故障止损方法的流程图。如图3A所示的故障止损方法包括:
步骤301:收集新发现故障的故障现象。
步骤302:将新发现故障的故障现象输入止损模型中,得到新发现故障的候选止损措施列表。
步骤303:根据业务影响分析结果以及收集到的故障上下文特征对候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表。
步骤304:调用排序后的止损措施列表中推荐的止损措施对应的执行策略,对新发现故障进行止损。
上述步骤301~304的实现方式与前述实施例中步骤101~104的实现方式基本相同,因此相关的描述可以参照前述实施例,此处不再赘述。
此外,在步骤304执行的同时、之前或者滞后,还可以执行如下步骤305的操作。
步骤305:收集新发现故障的故障现场,以便故障恢复后根据收集的故障现场分析新发现故障的根因。
收集故障现象主要目的是尽可能多的获取关于故障的信息。告警信息可以算是收集故障现场的一部分,其他收集故障现场的操作还可以包括一些自定义的标准操作,例如比如系统当前的容量、服务器的CPU、java的堆栈信息、报错日志等,有标准的脚本执行。
为了便于观测故障的恢复情况,确认止损措施对新发现故障的止损效果,避免止损措施进一步导致故障对业务的影响恶化,在对新发现故障进行止损时,还需要同步执行以下步骤306。
步骤306:检测新发现故障的告警集合的恢复情况,以检测新发现故障的恢复情况。
当故障逐渐恢复,相应的告警集合从其中告警的数量和内容上可以有所体现,因此检测告警集合的恢复情况便可以确定新发现故障是否被止损措施有效止损。
在本申请实施例中,步骤306的检测可以是连续不间断的,也可以是按照固定频率或者变化的频率执行。
需要说明的是,在本申请实施例中,止损措施对应的每一种执行策略均配置有急停策略。因此,在本申请实施例提供的故障止损方法具体执行时,如果调用了止损措施相应的执行策略执行止损时,通过检测发现所执行的策略导致了故障继续恶化,则可以启动所配置的急停策略急停执行策略,以暂停止损操作或者回退止损。如此,避免了故障对业务的影响继续加大带来不必要的业务损失。
在实际应用中,每次通过本申请实施例提供的方法进行故障止损,均可以根据期间产生的数据来进行止损模型的学习以及优化排序算法。关于止损列表排序的内容已经在前述实施例中介绍过,此处不再赘述。排序的过程具体可以通过算法实现。
在一种可能的实施例中,执行下述步骤307。
步骤307:根据用户的选择结果指向的止损措施在排序后的止损措施列表的排序值,以及选择结果指向的止损措施对应的执行策略的执行效果,进行以下至少一种操作:对止损模型进行增量更新,或,对候选止损措施列表中止损措施的排序算法进行优化。
用户的选择结果指向的止损措施在排序后的止损措施列表的排序值,以及选择结果指向的止损措施对应的执行策略的执行效果均是此次故障止损的重要反馈。通过步骤307的执行,实现了基于用户反馈的学习和总结,实现止损模型的不断优化以及排序算法的不断优化,从而使后续再次发现新的故障后应用本实施例的止损方法能够实现更好的止损效果。
需要说明的是,图3A所示仅为步骤304~306的一种示例的顺序。实际应用中对于步骤304~306的实现顺序不做限制。例如,步骤304~306可以同步执行,或者在步骤305之前执行步骤306,在步骤304之前执行步骤305等。
图3B示意了又一种故障止损方法的流程图。如图3B所示的止损方法中,首先得到告警数据,基于告警数据发现故障。利用止损模型基于新发现故障的故障现象得到候选止损措施的列表,里面包含多种为新发现故障提供的候选的止损措施。其后可以调用预先写好的排序函数,并结合收集的故障上下文特征以及业务影响分析结果对多个候选的止损措施进行排序,得到排序后的止损措施列表。
接着根据排序形成的止损措施列表执行故障现场的收集和止损。操作执行后,可以不断检测故障恢复情况(业务影响消除情况或者称业务恢复情况),当故障未恢复则接着执行止损操作,而如果已经回复则可以停止现场收集和止损操作。最终可以基于故障止损的处置结果,对止损模型和排序算法进行更新。
基于前述实施例介绍的故障止损方法,相应地,本申请还提供了一种故障止损装置。以下结合实施例介绍该装置的具体实现。
装置实施例
参见图4,该图为本申请实施例提供的一种故障止损装置的结构示意图。如图4所示的故障止损装置40包括:
故障现象收集模块401,用于收集新发现故障的故障现象;
列表获取模块402,用于将新发现故障的故障现象输入止损模型中,得到新发现故障的候选止损措施列表;止损模型包括:已知故障现象与止损措施的映射关系,其中,一种已知故障现象至少对应一种止损措施;候选止损措施列表中包括至少一种止损措施;
排序模块403,用于根据业务影响分析结果以及收集到的故障上下文特征对候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表;业务影响分析结果包括:新发现故障对业务的影响因子,以及执行候选止损措施列表中每一种止损措施对业务产生的潜在影响因子;故障上下文特征包括:新发现故障的场景中对止损措施的执行产生影响的信息;
故障止损模块404,用于调用排序后的止损措施列表中推荐的止损措施对应的执行策略,对新发现故障进行止损。
由于止损模型包含有已知故障现象与止损措施的映射关系,因此止损模型能够基于输入的新发现故障和前述的映射关系,提供与新发现故障适配的止损措施,形成候选止损措施列表。在本申请中还基于业务影响分析结果和收集到的故障上下文特征对候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表。因此,排序的依据包括:新发现故障对业务的影响因子,执行候选止损措施列表中每一种止损措施对业务产生的潜在影响因子,以及新发现故障的场景中对止损措施的执行产生影响的信息。如此,排序得到的新的列表为当前的新发现故障提供了优选的止损措施。从而在调用排序后的止损措施列表中推荐的止损措施对应的执行策略对新发现故障进行止损,能够有效降低故障对业务的影响。此外,该装置对于新发现故障的止损具有一定的灵活性和通用性,止损模型所提供的丰富的映射关系能够为新发现故障提供多种候选止损措施,故障止损的覆盖性较强。因此,相比于现有技术中故障自愈方案也能够做到更加及时、快速的止损,遏制业务影响进一步加重。
可选地,故障现象收集模块401,包括:
筛除单元,用于从当前时间窗口中的所有告警中去除次要内容,识别出新发现故障的相关告警;
告警摘要生成单元,用于根据新发现故障的相关告警生成新发现故障的告警摘要;
故障现象收集单元,用于根据告警摘要获得新发现故障的故障现象;故障现象包括对新发现故障的场景进行描述的正常和异常指标集合。
可选地,筛除单元,包括:
告警匹配子单元,用于将当前时间窗口中的所有告警分别与重要告警列表、高频告警列表以及低频告警列表进行匹配;重要告警列表为依据人工故障告警经验维护的告警列表;高频告警列表和低频告警列表为依据历史告警提取告警的属性和特征进行分析后生成的,高频告警列表中告警的发生频率高于低频告警列表中告警的发生频率;
次要内容识别子单元,用于对于所有告警中与高频告警列表匹配成功的告警,将其作为次要内容;
关注内容识别子单元,用于将所有告警中与重要告警列表或者低频告警列表匹配成功的告警作为需要关注的告警;
告警聚类子单元,用于对需要关注的告警进行聚类,形成的每一个类簇对应于一种新发现故障。
可选地,已知故障现象与止损措施的映射关系包括权重函数,权重函数的值表示在已知故障现象发生时实施具有映射关系的止损措施恢复故障的概率;
列表获取模块402,包括:
相似度获取单元,用于获得新发现故障的故障现象与止损模型中已知故障现象的相似度;
已知故障现象确定单元,用于确定止损模型中与新发现故障的故障现象相似度最高的已知故障现象;
列表生成单元,用于将与相似度最高的已知故障现象具有映射关系的止损措施列入候选止损措施列表中;
权重值获取单元,用于将相似度最高的已知故障现象对应的相似度与权重函数相乘,得到候选止损措施列表中各个止损措施对应的新的权重值。
本申请实施例还提供了另一种故障止损装置50,参见图5所示的装置结构。故障止损装置50除了包含故障止损装置40中的各个模块,还进一步地包括:
故障现场收集模块501,用于在调用排序后的止损措施列表中推荐的止损措施对应的执行策略时,收集新发现故障的故障现场,以便故障恢复后根据收集的故障现场分析新发现故障的根因。
可选地,每一种执行策略配置有急停策略,故障止损装置50还包括:急停控制模块502,用于在执行策略执行后导致故障继续恶化时启动急停策略以暂停止损操作或者回退止损。
可选地,故障止损装置50还包括:
故障恢复检测模块503,用于在对新发现故障进行止损时,检测新发现故障的告警集合的恢复情况,以检测新发现故障的恢复情况。
可选地,故障止损装置50还包括:模型训练模块504,用于基于专家经验和历史工单学习后得到有关已知故障现象与止损措施的映射关系的模型作为故障止损模型。
可选地,故障止损装置50还包括:
选择结果确认模块505,用于获得用户对排序后的止损措施列表中止损措施的选择结果;
故障止损模块404,具体用于调用选择结果指向的止损措施对应的执行策略。
可选地,故障止损装置50还包括:
反馈学习模块506,用于根据选择结果指向的止损措施在排序后的止损措施列表的排序值,以及选择结果指向的止损措施对应的执行策略的执行效果,进行以下至少一种操作:
对止损模型进行增量更新,或,对候选止损措施列表中止损措施的排序算法进行优化。
在以上实施例介绍的故障止损装置,其重点在于故障的快速止损而不是故障自愈,建立了一种通用的IT故障止损方案,不仅仅只是解决历史上发生或者人的经验能够覆盖的故障,而是具有一定的推理能力,能够解决未知但是和已经场景具有一定相似性的场景。另外通过反馈学习模块506的设置,还可以根据用户的反馈不断地学习总结,优化故障止损的效果。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (11)

1.一种故障止损方法,其特征在于,包括:
收集新发现故障的故障现象;
将所述新发现故障的故障现象输入止损模型中,得到所述新发现故障的候选止损措施列表;所述止损模型包括:已知故障现象与止损措施的映射关系,其中,一种已知故障现象至少对应一种止损措施;所述候选止损措施列表中包括至少一种止损措施;
根据业务影响分析结果以及收集到的故障上下文特征对所述候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表;所述业务影响分析结果包括:所述新发现故障对业务的影响因子,以及执行所述候选止损措施列表中每一种止损措施对所述业务产生的潜在影响因子;所述故障上下文特征包括:所述新发现故障的场景中对止损措施的执行产生影响的信息;
调用所述排序后的止损措施列表中推荐的止损措施对应的执行策略,对所述新发现故障进行止损。
2.根据权利要求1所述的方法,其特征在于,所述收集新发现故障的故障现象,包括:
从当前时间窗口中的所有告警中去除次要内容,识别出所述新发现故障的相关告警;
根据所述新发现故障的相关告警生成所述新发现故障的告警摘要;
根据所述告警摘要获得所述新发现故障的故障现象;所述故障现象包括对所述新发现故障的场景进行描述的正常和异常指标集合。
3.根据权利要求2所述的方法,其特征在于,所述从当前时间窗口中的所有告警中去除次要内容,识别出所述新发现故障的相关告警,包括:
将所述当前时间窗口中的所有告警分别与重要告警列表、高频告警列表以及低频告警列表进行匹配;所述重要告警列表为依据人工故障告警经验维护的告警列表;所述高频告警列表和所述低频告警列表为依据历史告警提取告警的属性和特征进行分析后生成的,所述高频告警列表中告警的发生频率高于所述低频告警列表中告警的发生频率;
对于所述所有告警中与所述高频告警列表匹配成功的告警,将其作为次要内容;而所述所有告警中与所述重要告警列表或者所述低频告警列表匹配成功的告警作为需要关注的告警;
对所述需要关注的告警进行聚类,形成的每一个类簇对应于一种新发现故障。
4.根据权利要求1所述的方法,其特征在于,已知故障现象与止损措施的映射关系包括权重函数,所述权重函数的值表示在已知故障现象发生时实施具有映射关系的止损措施恢复故障的概率;
所述将所述新发现故障的故障现象输入止损模型中,得到所述新发现故障的候选止损措施列表,包括:
获得所述新发现故障的故障现象与所述止损模型中已知故障现象的相似度;
确定所述止损模型中与所述新发现故障的故障现象相似度最高的已知故障现象;
将与所述相似度最高的已知故障现象具有映射关系的止损措施列入所述候选止损措施列表中,并将所述相似度最高的已知故障现象对应的相似度与权重函数相乘,得到所述候选止损措施列表中各个止损措施对应的新的权重值。
5.根据权利要求1所述的方法,其特征在于,在所述调用所述排序后的止损措施列表中推荐的止损措施对应的执行策略时,所述方法还包括:
收集所述新发现故障的故障现场,以便故障恢复后根据收集的故障现场分析所述新发现故障的根因。
6.根据权利要求1所述的方法,其特征在于,每一种执行策略配置有急停策略,所述急停策略用于在执行所述执行策略导致故障继续恶化时启动以暂停止损操作或者回退止损。
7.根据权利要求1所述的方法,其特征在于,在所述对所述新发现故障进行止损时,所述方法还包括:
检测所述新发现故障的告警集合的恢复情况,以检测所述新发现故障的恢复情况。
8.根据权利要求1所述的方法,其特征在于,所述止损模型为基于专家经验和历史工单学习后得到有关所述已知故障现象与止损措施的映射关系的模型。
9.根据权利要求1所述的方法,其特征在于,还包括:
获得用户对所述排序后的止损措施列表中止损措施的选择结果;
所述调用所述排序后的止损措施列表中推荐的止损措施对应的执行策略,具体包括:
调用所述选择结果指向的止损措施对应的执行策略。
10.根据权利要求9所述的方法,其特征在于,还包括:
根据所述选择结果指向的止损措施在所述排序后的止损措施列表的排序值,以及所述选择结果指向的止损措施对应的执行策略的执行效果,进行以下至少一种操作:
对所述止损模型进行增量更新,或,对所述候选止损措施列表中止损措施的排序算法进行优化。
11.一种故障止损装置,其特征在于,包括:
故障现象收集模块,用于收集新发现故障的故障现象;
列表获取模块,用于将所述新发现故障的故障现象输入止损模型中,得到所述新发现故障的候选止损措施列表;所述止损模型包括:已知故障现象与止损措施的映射关系,其中,一种已知故障现象至少对应一种止损措施;所述候选止损措施列表中包括至少一种止损措施;
排序模块,用于根据业务影响分析结果以及收集到的故障上下文特征对所述候选止损措施列表中的止损措施进行排序,得到排序后的止损措施列表;所述业务影响分析结果包括:所述新发现故障对业务的影响因子,以及执行所述候选止损措施列表中每一种止损措施对所述业务产生的潜在影响因子;所述故障上下文特征包括:所述新发现故障的场景中对止损措施的执行产生影响的信息;
故障止损模块,用于调用所述排序后的止损措施列表中推荐的止损措施对应的执行策略,对所述新发现故障进行止损。
CN202110371982.5A 2021-04-07 2021-04-07 一种故障止损方法及装置 Pending CN113065001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110371982.5A CN113065001A (zh) 2021-04-07 2021-04-07 一种故障止损方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110371982.5A CN113065001A (zh) 2021-04-07 2021-04-07 一种故障止损方法及装置

Publications (1)

Publication Number Publication Date
CN113065001A true CN113065001A (zh) 2021-07-02

Family

ID=76566041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110371982.5A Pending CN113065001A (zh) 2021-04-07 2021-04-07 一种故障止损方法及装置

Country Status (1)

Country Link
CN (1) CN113065001A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537760A (zh) * 2021-07-14 2021-10-22 深圳供电局有限公司 一种故障处理预案智能推荐方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537760A (zh) * 2021-07-14 2021-10-22 深圳供电局有限公司 一种故障处理预案智能推荐方法及系统

Similar Documents

Publication Publication Date Title
US10901727B2 (en) Monitoring code sensitivity to cause software build breaks during software project development
CN109800127A (zh) 一种基于机器学习的系统故障诊断智能化运维方法及系统
CN111209131A (zh) 一种基于机器学习确定异构系统的故障的方法和系统
US20200021511A1 (en) Performance analysis for transport networks using frequent log sequence discovery
CN105095052B (zh) Soa环境下的故障检测方法及装置
CN110174883B (zh) 一种系统健康状态评估方法及装置
ZA200400131B (en) Method and system for correlating and determining root causes of system and enterprise events.
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN113516244B (zh) 一种智能运维方法、装置、电子设备及存储介质
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN109885478A (zh) 一种错误代码的定位方法及系统
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
CN116719664B (zh) 基于微服务部署的应用和云平台跨层故障分析方法及系统
CN112446511A (zh) 一种故障处置方法、装置、介质及设备
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN115114064A (zh) 一种微服务故障分析方法、系统、设备及存储介质
CN113065001A (zh) 一种故障止损方法及装置
CN114462644A (zh) 用于微服务运维的方法及系统
Yan et al. Aegis: Attribution of Control Plane Change Impact across Layers and Components for Cloud Systems
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN111277427B (zh) 一种数据中心网络设备的巡检方法及系统
CN115509784A (zh) 数据库实例的故障检测方法和装置
CN113328898B (zh) 一种具有自主学习能力的故障诊断方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination