CN114781510A - 一种故障定位方法、装置、系统和存储介质 - Google Patents

一种故障定位方法、装置、系统和存储介质 Download PDF

Info

Publication number
CN114781510A
CN114781510A CN202210421748.3A CN202210421748A CN114781510A CN 114781510 A CN114781510 A CN 114781510A CN 202210421748 A CN202210421748 A CN 202210421748A CN 114781510 A CN114781510 A CN 114781510A
Authority
CN
China
Prior art keywords
information
alarm
fault
root
alarms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210421748.3A
Other languages
English (en)
Inventor
裴冬冬
关德常
张志鹏
涂文芸
来宾
郭昊
林溢星
郝春雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202210421748.3A priority Critical patent/CN114781510A/zh
Publication of CN114781510A publication Critical patent/CN114781510A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请提供一种故障定位方法、装置、系统和存储介质,采用预先训练的卷积神经网络CNN算法模型对正则化的故障告警信息进行特征提取和分类,形成告警图谱,形成运维图谱,基础资源包括各IT应用系统的配置信息、变更信息和日志信息,通过告警图谱在运维图谱上的投影,对关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对最终告警拓扑关系进行拓扑排序得到N个根源告警,根据配置信息变化情况、变更信息实施情况和日志信息出错情况计算得到N个根源告警各自对应的置信度,将置信度最大的根源告警作为最终根源故障点。从而基于最终告警拓扑关系,减少了无关告警的干扰,配合运维数据分析,提升了根源告警的置信度,提升了故障定位的准确性。

Description

一种故障定位方法、装置、系统和存储介质
技术领域
本申请涉及计算机领域,特别涉及一种故障定位方法、装置、系统和存储介质。
背景技术
为了适应业务的快速发展,企业的IT(Information Technology,信息技术)应用系统和基础设施发生了巨大变革,其规模越来越大、架构越来越复杂,对集约化的IT运维带来了极大地挑战。
特别是当发生生产故障时,为了减少对业务影响,故障处置时间要求极短,这对故障处置提出了新的挑战。故障处置一般包括故障检测、故障定位和故障恢复三个阶段,其中,故障检测和故障恢复耗时短,故障定位耗时长。
我们通常采用监控告警来辅助发现和定位问题,但告警具有干扰性:为了避免告警漏报,往往要求告警应报尽报,会产生很多误报告警。在大规模、复杂架构之下,大量的干扰告警,加上人员数量和技能的限制,都会影响故障定位效率,不能快速准确的定位故障,从而问题得不到及时解决,影响业务的连续性。
发明内容
有鉴于此,本申请的目的在于提供一种故障定位方法、装置、系统和存储介质,可以实现快速准确的定位故障。
为实现上述目的,本申请有如下技术方案:
第一方面,本申请实施例提供了一种故障定位方法,包括:
获取各信息技术IT应用系统的初始故障告警信息;
对所述初始故障告警信息进行正则化处理得到正则化的故障告警信息;
采用预先训练的卷积神经网络CNN算法模型对所述正则化的故障告警信息进行特征提取和分类,将具有相同特征的所述正则化的故障告警信息作为关联告警信息;
根据所述关联告警信息发生时间的先后顺序建立初步实时告警拓扑关系,以形成告警图谱;
构建所述各IT应用系统之间的拓扑关系、所述各IT应用系统与基础资源之间的拓扑关系,和所述基础资源之间的拓扑关系,以形成运维图谱;所述基础资源包括所述各IT应用系统的配置信息、变更信息和日志信息;
通过所述告警图谱在所述运维图谱上的投影,对所述关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对所述最终告警拓扑关系进行拓扑排序得到N个根源告警;所述N为正整数;
根据当前运维数据计算得到所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况;
根据所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况计算得到所述N个根源告警各自对应的置信度,将所述N个根源告警中对应的置信度最大的根源告警作为最终根源故障点。
在一种可能的实现方式中,所述方法还包括:
根据所述最终根源故障点,合并所述最终根源故障点对应的下游告警,作为合并故障点;
根据所述合并故障点进行告警。
在一种可能的实现方式中,所述采用卷积神经网络CNN算法对所述正则化的故障告警信息进行特征提取和分类之前,所述方法还包括:
获取初始CNN算法模型的训练集,所述训练集包括:已知故障告警信息和已知故障告警信息的特征分类;
利用所述训练集学习故障告警信息和故障告警信息的特征分类的映射关系;
根据所述映射关系训练所述初始CNN算法模型得到所述预先训练的卷积神经网络CNN算法模型。
在一种可能的实现方式中,所述采用卷积神经网络CNN算法对所述正则化的故障告警信息进行特征提取和分类,包括:
建立大小为第一时长的滑动时间窗口,对所述正则化的故障告警信息在所述滑动时间窗口内的信息采用卷积神经网络CNN算法进行特征提取和分类。
第二方面,本申请实施例提供了一种故障定位装置,包括:
第一获取单元,用于获取各信息技术IT应用系统的初始故障告警信息;
正则化单元,用于对所述初始故障告警信息进行正则化处理得到正则化的故障告警信息;
分类单元,用于采用预先训练的卷积神经网络CNN算法模型对所述正则化的故障告警信息进行特征提取和分类,将具有相同特征的所述正则化的故障告警信息作为关联告警信息;
告警图谱建立单元,用于根据所述关联告警信息发生时间的先后顺序建立初步实时告警拓扑关系,以形成告警图谱;
运维图谱建立单元,用于构建所述各IT应用系统之间的拓扑关系、所述各IT应用系统与基础资源之间的拓扑关系,和所述基础资源之间的拓扑关系,以形成运维图谱;所述基础资源包括所述各IT应用系统的配置信息、变更信息和日志信息;
投影单元,用于通过所述告警图谱在所述运维图谱上的投影,对所述关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对所述最终告警拓扑关系进行拓扑排序得到N个根源告警;所述N为正整数;
计算单元,用于根据当前运维数据计算得到所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况;
根源故障点确定单元,用于根据所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况计算得到所述N个根源告警各自对应的置信度,将所述N个根源告警中对应的置信度最大的根源告警作为最终根源故障点。
在一种可能的实现方式中,所述装置还包括:
合并故障点确定单元,用于根据所述最终根源故障点,合并所述最终根源故障点对应的下游告警,作为合并故障点;
告警单元,用于根据所述合并故障点进行告警。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,用于获取初始CNN算法模型的训练集,所述训练集包括:已知故障告警信息和已知故障告警信息的特征分类;
学习单元,用于利用所述训练集学习故障告警信息和故障告警信息的特征分类的映射关系;
训练单元,用于根据所述映射关系训练所述初始CNN算法模型得到所述预先训练的卷积神经网络CNN算法模型。
在一种可能的实现方式中,所述分类单元,包括:
分类子单元,用于建立大小为第一时长的滑动时间窗口,对所述正则化的故障告警信息在所述滑动时间窗口内的信息采用卷积神经网络CNN算法进行特征提取和分类。
第三方面,本申请实施例还提供了一种故障定位系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述故障定位方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理执行时实现如上述所述故障定位方法的步骤。
与现有技术相比,本申请至少具有以下优点:
本申请实施例提供了一种故障定位方法、装置、系统和存储介质,该方法包括:获取各信息技术IT应用系统的初始故障告警信息,对初始故障告警信息进行正则化处理得到正则化的故障告警信息,采用预先训练的卷积神经网络CNN算法模型对正则化的故障告警信息进行特征提取和分类,将具有相同特征的正则化的故障告警信息作为关联告警信息,根据关联告警信息发生时间的先后顺序建立初步实时告警拓扑关系,以形成告警图谱,构建各IT应用系统之间的拓扑关系、各IT应用系统与基础资源之间的拓扑关系,和基础资源之间的拓扑关系,以形成运维图谱,基础资源包括各IT应用系统的配置信息、变更信息和日志信息,通过告警图谱在运维图谱上的投影,对关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对最终告警拓扑关系进行拓扑排序得到N个根源告警,N为正整数,根据当前运维数据计算得到配置信息变化情况、变更信息实施情况和日志信息出错情况,根据配置信息变化情况、变更信息实施情况和日志信息出错情况计算得到N个根源告警各自对应的置信度,将N个根源告警中对应的置信度最大的根源告警作为最终根源故障点。从而基于最终告警拓扑关系,减少了无关告警的干扰,配合运维数据分析,提升了根源告警的置信度,提升了故障定位的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本申请实施例提供的一种故障定位方法的流程图;
图2示出了本申请实施例提供的一种故障定位装置的示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
正如背景技术中的描述,为了适应业务的快速发展,企业的IT(InformationTechnology,信息技术)应用系统和基础设施发生了巨大变革,其规模越来越大、架构越来越复杂,对集约化的IT运维带来了极大地挑战。
特别是当发生生产故障时,为了减少对业务影响,故障处置时间要求极短,这对故障处置提出了新的挑战。故障处置一般包括故障检测、故障定位和故障恢复三个阶段,其中,故障检测和故障恢复耗时短,故障定位耗时长。
我们通常采用监控告警来辅助发现和定位问题,但告警具有干扰性:为了避免告警漏报,往往要求告警应报尽报,会产生很多误报告警。在大规模、复杂架构之下,大量的干扰告警,加上人员数量和技能的限制,都会影响故障定位效率,不能快速准确的定位故障,从而问题得不到及时解决,影响业务的连续性。
此外,DevOps(Development和Operations的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。DevOps通过持续集成、持续部署、持续交付等流程,实现应用系统的敏捷交付,微服务和容器技术进一步加快了DevOps敏捷交付能力,云计算重新定义了数据中心,通过软件定义、标准化、资源池化、自动化、服务化等方法,使得基础资源的交付效率得以提升、运维成本得以降低、可用性得以提高。IT技术变更带来的副作用是,IT规模越来越庞大、架构越来越复杂。然而,IT运维是集约化运维,IT运维人员的数量并没有随系统的规模变大、架构变复杂而增多,相反,人均运维工作量比以前更多,这对故障处置提出了新的挑战。企业通常采用监控告警来检测异常,采用多专业人工协同来定位故障。但是,随着应用系统和基础架构的规模越来越大、架构越来越复杂、告警数量越来越多,多专业人工协同遇到瓶颈,故障定位效率低下,存在较大的运维压力。
为了解决以上技术问题,本申请实施例提供了一种故障定位方法、装置、系统和存储介质,该方法包括:获取各信息技术IT应用系统的初始故障告警信息,对初始故障告警信息进行正则化处理得到正则化的故障告警信息,采用预先训练的卷积神经网络CNN算法模型对正则化的故障告警信息进行特征提取和分类,将具有相同特征的正则化的故障告警信息作为关联告警信息,根据关联告警信息发生时间的先后顺序建立初步实时告警拓扑关系,以形成告警图谱,构建各IT应用系统之间的拓扑关系、各IT应用系统与基础资源之间的拓扑关系,和基础资源之间的拓扑关系,以形成运维图谱,基础资源包括各IT应用系统的配置信息、变更信息和日志信息,通过告警图谱在运维图谱上的投影,对关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对最终告警拓扑关系进行拓扑排序得到N个根源告警,N为正整数,根据当前运维数据计算得到配置信息变化情况、变更信息实施情况和日志信息出错情况,根据配置信息变化情况、变更信息实施情况和日志信息出错情况计算得到N个根源告警各自对应的置信度,将N个根源告警中对应的置信度最大的根源告警作为最终根源故障点。从而基于最终告警拓扑关系,减少了无关告警的干扰,配合运维数据分析,提升了根源告警的置信度,提升了故障定位的准确性。
为了更好地理解本申请的技术方案和技术效果,以下将结合附图对具体的实施例进行详细的描述。
示例性方法
参见图1所示,该图为本申请实施例提供的一种故障定位方法的流程图,包括:
S101:获取各信息技术IT应用系统的初始故障告警信息。
在本申请实施例中,可以获取各信息技术IT应用系统的初始故障告警信息,IT应用系统指的是支撑业务正常运行的IT信息系统,对于各IT应用系统的初始故障告警信息的获取,可以对接企业现有的集中监控平台,接入各类监控KPI(Key PerformanceIndicator,关键绩效指标)和告警,作为初始故障告警信息。
具体的,监控KPI指的是监控指标的时序信息,例如交易成功率曲线、内存占用量曲线、网络流量曲线。如果监控KPI超过一个阈值,则发生告警通知。举例来说,当交易成功率的值低于一个预设阈值时,即发生告警通知。
进一步的,初始故障告警信息包括两类,业务告警信息和基础资源告警信息,业务告警信息包括交易量、成功率、失败率、响应率、响应时间告警等,基础资源告警信息包括应用系统、中间件、消息队列、数据库、操作系统、存储、网络告警等。从而可以获取各个方面的告警信息,全方位的分析各信息技术IT应用系统可能存在的故障。
S102:对所述初始故障告警信息进行正则化处理得到正则化的故障告警信息。
在本申请实施例中,可以对初始故障告警信息进行正则化处理得到正则化的故障告警信息,由于上述获取的初始故障告警信息均为时序数据,需要将时序数据做归一化处理,使得不同的初始故障告警信息归一到同一个维度,同时过滤掉周期性告警、长时间告警、白名单中无关告警,便于后续建立告警拓扑关系。
S103:采用预先训练的卷积神经网络CNN算法模型对所述正则化的故障告警信息进行特征提取和分类,将具有相同特征的所述正则化的故障告警信息作为关联告警信息。
在本申请实施例中,为了得到正则化的故障告警信息之间的关联度,可以用预先训练的卷积神经网络CNN算法模型对正则化的故障告警信息进行特征提取和分类,将具有相同特征的正则化的故障告警信息作为关联告警信息。
具体的,预先训练的卷积神经网络CNN算法模型通过以下方式得到:
获取初始CNN算法模型的训练集,训练集包括:已知故障告警信息和已知故障告警信息的特征分类。
利用训练集学习故障告警信息和故障告警信息的特征分类的映射关系,根据映射关系训练初始CNN算法模型得到预先训练的卷积神经网络CNN算法模型。
在一种可能的实现方式中,可以建立大小为第一时长T*1的滑动时间窗口,滑动时间窗口内的正常信息记为0,告警信息记为1,形成一个大小为T*1的0/1位图,通过CNN算法对滑动时间窗口内的监控KPI和告警进行特征提取和分类,即对滑动时间窗口内的0/1编码进行卷积计算,隐藏层采用relu激活函数,输出层采用softmax激活函数进行多分类。具体的,计算公式为softmax(relu(A*T+b))=K个分类,其中A和b为参数,K为分类结果。同一类的告警具有相关关系,从而确定任意两个告警之间的关联关系,形成一到多个关联告警簇,即将具有相同特征的正则化的故障告警信息作为关联告警信息。
即通过每次输入一个第一时长T*1的滑动时间窗口内的正则化的故障告警信息输入CNN算法模型,由于滑动时间窗口内数据的趋势更趋于一致,CNN算法模型输出的特征分类更加准确。
S104:根据所述关联告警信息发生时间的先后顺序建立初步实时告警拓扑关系,以形成告警图谱。
S105:构建所述各IT应用系统之间的拓扑关系、所述各IT应用系统与基础资源之间的拓扑关系,和所述基础资源之间的拓扑关系,以形成运维图谱;所述基础资源包括所述各IT应用系统的配置信息、变更信息和日志信息。
在本申请实施例中,即可以根据卷积神经网络特征分类结果,加上告警发生时间,生成初步实时告警拓扑关系,以形成告警图谱,从而将告警信息进行了整理,将告警信息进行归类。
此外,为了进一步明确初步实时告警拓扑关系是否存在无关告警,还可以构建各IT应用系统之间的拓扑关系各IT应用系统与基础资源之间的拓扑关系,和基础资源之间的拓扑关系,以形成运维图谱,基础资源包括各IT应用系统的配置信息、变更信息和日志信息,例如中间件、数据库、消息队列、操作系统、服务器、存储、网络、安全等。
具体的,拓扑关系有两种构建方法:一种是发放资源时人工配置,是一种静态方法,构建成本低,但维护成本高;另一种是插桩埋点采集,是一种动态方法,维护成本低,但对现有程序有改动,且准确性低。
S106:通过所述告警图谱在所述运维图谱上的投影,对所述关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对所述最终告警拓扑关系进行拓扑排序得到N个根源告警;所述N为正整数。
在本申请实施例中,可以通过告警图谱在运维图谱上的投影,对关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对最终告警拓扑关系进行拓扑排序得到N个根源告警,N为正整数。
即具体的,举例来说,有些存在于上述告警图谱中的关联告警信息,可能在运维图谱中显示两者不是关联的,一个在A应用系统上,一个在B应用系统上,对于这种无关告警可以删除以得到最终告警拓扑关系,并对最终告警拓扑关系进行拓扑排序得到N个根源告警,例如最终告警拓扑关系中排序有操作系统告警信息,有中间件告警信息,也有app层面的告警信息,则将操作系统告警信息作为根源告警,以便后续运维人员根据根源告警进行调整,从根本处解决问题。
S107:根据当前运维数据计算得到配置信息变化情况、变更信息实施情况和日志信息出错情况。
S108:根据所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况计算得到所述N个根源告警各自对应的置信度,将所述N个根源告警中对应的置信度最大的根源告警作为最终根源故障点。
在本申请实施例中,由于进行拓扑排序得到的N个根源告警,N可能为多个,则为了更准确的定位哪个是真正存在的故障点,可以根据当前运维数据计算得到配置信息变化情况、变更信息实施情况和日志信息出错情况。
每个根源告警有一个置信度,关联告警对象的配置信息变化情况、变更实施情况、日志出错信息,例如可以设置配置信息变化置信度+1分,有变更实施置信度+2分,相关日志出错置信度+3分,调整每个根源告警的置信度,置信度最大的根源告警定义作为最终根源故障点。
从而加入置信度的判断进一步准确的定位到了故障点,避免了告警的干扰,实现快速准确的定位故障点。
在一种可能的实现方式中,可以根据最终根源故障点,合并最终根源故障点对应的下游告警,作为合并故障点,根据合并故障点进行告警。
即在本申请实施例中,当根源出现告警的时候,可能其下游也会出现故障而告警,为了提升后续运维人员进行故障修复的效率,可以合并最终根源故障点对应的下游告警,作为合并故障点,根据合并故障点进行告警。
举例来说,操作系统告警信息为根源告警,即将操作系统告警信息对应的中间件告警信息,app层面的告警信息一并合并作为合并故障点进行告警,便于后期运维人员统一修复,提升效率。
本申请实施例提供了一种故障定位方法,该方法包括:获取各信息技术IT应用系统的初始故障告警信息,对初始故障告警信息进行正则化处理得到正则化的故障告警信息,采用预先训练的卷积神经网络CNN算法模型对正则化的故障告警信息进行特征提取和分类,将具有相同特征的正则化的故障告警信息作为关联告警信息,根据关联告警信息发生时间的先后顺序建立初步实时告警拓扑关系,以形成告警图谱,构建各IT应用系统之间的拓扑关系、各IT应用系统与基础资源之间的拓扑关系,和基础资源之间的拓扑关系,以形成运维图谱,基础资源包括各IT应用系统的配置信息、变更信息和日志信息,通过告警图谱在运维图谱上的投影,对关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对最终告警拓扑关系进行拓扑排序得到N个根源告警,N为正整数,根据当前运维数据计算得到配置信息变化情况、变更信息实施情况和日志信息出错情况,根据配置信息变化情况、变更信息实施情况和日志信息出错情况计算得到N个根源告警各自对应的置信度,将N个根源告警中对应的置信度最大的根源告警作为最终根源故障点。从而基于最终告警拓扑关系,减少了无关告警的干扰,配合运维数据分析,提升了根源告警的置信度,提升了故障定位的准确性。
示例性装置
参见图2所示,为本申请实施例提供的一种故障定位装置的示意图,包括:
第一获取单元201,用于获取各信息技术IT应用系统的初始故障告警信息;
正则化单元202,用于对所述初始故障告警信息进行正则化处理得到正则化的故障告警信息;
分类单元203,用于采用预先训练的卷积神经网络CNN算法模型对所述正则化的故障告警信息进行特征提取和分类,将具有相同特征的所述正则化的故障告警信息作为关联告警信息;
告警图谱建立单元204,用于根据所述关联告警信息发生时间的先后顺序建立初步实时告警拓扑关系,以形成告警图谱;
运维图谱建立单元205,用于构建所述各IT应用系统之间的拓扑关系、所述各IT应用系统与基础资源之间的拓扑关系,和所述基础资源之间的拓扑关系,以形成运维图谱;所述基础资源包括所述各IT应用系统的配置信息、变更信息和日志信息;
投影单元206,用于通过所述告警图谱在所述运维图谱上的投影,对所述关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对所述最终告警拓扑关系进行拓扑排序得到N个根源告警;所述N为正整数;
计算单元207,用于根据当前运维数据计算得到所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况;
根源故障点确定单元208,用于根据所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况计算得到所述N个根源告警各自对应的置信度,将所述N个根源告警中对应的置信度最大的根源告警作为最终根源故障点。
在一种可能的实现方式中,所述装置还包括:
合并故障点确定单元,用于根据所述最终根源故障点,合并所述最终根源故障点对应的下游告警,作为合并故障点;
告警单元,用于根据所述合并故障点进行告警。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,用于获取初始CNN算法模型的训练集,所述训练集包括:已知故障告警信息和已知故障告警信息的特征分类;
学习单元,用于利用所述训练集学习故障告警信息和故障告警信息的特征分类的映射关系;
训练单元,用于根据所述映射关系训练所述初始CNN算法模型得到所述预先训练的卷积神经网络CNN算法模型。
在一种可能的实现方式中,所述分类单元,包括:
分类子单元,用于建立大小为第一时长的滑动时间窗口,对所述正则化的故障告警信息在所述滑动时间窗口内的信息采用卷积神经网络CNN算法进行特征提取和分类。
本申请实施例提供了一种故障定位装置,利用该装置的方法包括:获取各信息技术IT应用系统的初始故障告警信息,对初始故障告警信息进行正则化处理得到正则化的故障告警信息,采用预先训练的卷积神经网络CNN算法模型对正则化的故障告警信息进行特征提取和分类,将具有相同特征的正则化的故障告警信息作为关联告警信息,根据关联告警信息发生时间的先后顺序建立初步实时告警拓扑关系,以形成告警图谱,构建各IT应用系统之间的拓扑关系、各IT应用系统与基础资源之间的拓扑关系,和基础资源之间的拓扑关系,以形成运维图谱,基础资源包括各IT应用系统的配置信息、变更信息和日志信息,通过告警图谱在运维图谱上的投影,对关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对最终告警拓扑关系进行拓扑排序得到N个根源告警,N为正整数,根据当前运维数据计算得到配置信息变化情况、变更信息实施情况和日志信息出错情况,根据配置信息变化情况、变更信息实施情况和日志信息出错情况计算得到N个根源告警各自对应的置信度,将N个根源告警中对应的置信度最大的根源告警作为最终根源故障点。从而基于最终告警拓扑关系,减少了无关告警的干扰,配合运维数据分析,提升了根源告警的置信度,提升了故障定位的准确性。
在上述实施例的基础上,本申请实施例还提供了一种故障定位系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述故障定位方法的步骤。
在上述实施例的基础上,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理执行时实现如上述故障定位方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于器件实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅是本申请的优选实施方式,虽然本申请已以较佳实施例披露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

Claims (10)

1.一种故障定位方法,其特征在于,包括:
获取各信息技术IT应用系统的初始故障告警信息;
对所述初始故障告警信息进行正则化处理得到正则化的故障告警信息;
采用预先训练的卷积神经网络CNN算法模型对所述正则化的故障告警信息进行特征提取和分类,将具有相同特征的所述正则化的故障告警信息作为关联告警信息;
根据所述关联告警信息发生时间的先后顺序建立初步实时告警拓扑关系,以形成告警图谱;
构建所述各IT应用系统之间的拓扑关系、所述各IT应用系统与基础资源之间的拓扑关系,和所述基础资源之间的拓扑关系,以形成运维图谱;所述基础资源包括所述各IT应用系统的配置信息、变更信息和日志信息;
通过所述告警图谱在所述运维图谱上的投影,对所述关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对所述最终告警拓扑关系进行拓扑排序得到N个根源告警;所述N为正整数;
根据当前运维数据计算得到所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况;
根据所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况计算得到所述N个根源告警各自对应的置信度,将所述N个根源告警中对应的置信度最大的根源告警作为最终根源故障点。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述最终根源故障点,合并所述最终根源故障点对应的下游告警,作为合并故障点;
根据所述合并故障点进行告警。
3.根据权利要求1所述的方法,其特征在于,所述采用卷积神经网络CNN算法对所述正则化的故障告警信息进行特征提取和分类之前,所述方法还包括:
获取初始CNN算法模型的训练集,所述训练集包括:已知故障告警信息和已知故障告警信息的特征分类;
利用所述训练集学习故障告警信息和故障告警信息的特征分类的映射关系;
根据所述映射关系训练所述初始CNN算法模型得到所述预先训练的卷积神经网络CNN算法模型。
4.根据权利要求1所述的方法,其特征在于,所述采用卷积神经网络CNN算法对所述正则化的故障告警信息进行特征提取和分类,包括:
建立大小为第一时长的滑动时间窗口,对所述正则化的故障告警信息在所述滑动时间窗口内的信息采用卷积神经网络CNN算法进行特征提取和分类。
5.一种故障定位装置,其特征在于,包括:
第一获取单元,用于获取各信息技术IT应用系统的初始故障告警信息;
正则化单元,用于对所述初始故障告警信息进行正则化处理得到正则化的故障告警信息;
分类单元,用于采用预先训练的卷积神经网络CNN算法模型对所述正则化的故障告警信息进行特征提取和分类,将具有相同特征的所述正则化的故障告警信息作为关联告警信息;
告警图谱建立单元,用于根据所述关联告警信息发生时间的先后顺序建立初步实时告警拓扑关系,以形成告警图谱;
运维图谱建立单元,用于构建所述各IT应用系统之间的拓扑关系、所述各IT应用系统与基础资源之间的拓扑关系,和所述基础资源之间的拓扑关系,以形成运维图谱;所述基础资源包括所述各IT应用系统的配置信息、变更信息和日志信息;
投影单元,用于通过所述告警图谱在所述运维图谱上的投影,对所述关联告警信息中的无关告警删除以得到最终告警拓扑关系,并对所述最终告警拓扑关系进行拓扑排序得到N个根源告警;所述N为正整数;
计算单元,用于根据当前运维数据计算得到所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况;
根源故障点确定单元,用于根据所述配置信息变化情况、所述变更信息实施情况和所述日志信息出错情况计算得到所述N个根源告警各自对应的置信度,将所述N个根源告警中对应的置信度最大的根源告警作为最终根源故障点。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
合并故障点确定单元,用于根据所述最终根源故障点,合并所述最终根源故障点对应的下游告警,作为合并故障点;
告警单元,用于根据所述合并故障点进行告警。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取初始CNN算法模型的训练集,所述训练集包括:已知故障告警信息和已知故障告警信息的特征分类;
学习单元,用于利用所述训练集学习故障告警信息和故障告警信息的特征分类的映射关系;
训练单元,用于根据所述映射关系训练所述初始CNN算法模型得到所述预先训练的卷积神经网络CNN算法模型。
8.根据权利要求5所述的装置,其特征在于,所述分类单元,包括:
分类子单元,用于建立大小为第一时长的滑动时间窗口,对所述正则化的故障告警信息在所述滑动时间窗口内的信息采用卷积神经网络CNN算法进行特征提取和分类。
9.一种故障定位系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-4任意一项所述故障定位方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理执行时实现如权利要求1-4任意一项所述故障定位方法的步骤。
CN202210421748.3A 2022-04-21 2022-04-21 一种故障定位方法、装置、系统和存储介质 Pending CN114781510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210421748.3A CN114781510A (zh) 2022-04-21 2022-04-21 一种故障定位方法、装置、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210421748.3A CN114781510A (zh) 2022-04-21 2022-04-21 一种故障定位方法、装置、系统和存储介质

Publications (1)

Publication Number Publication Date
CN114781510A true CN114781510A (zh) 2022-07-22

Family

ID=82430653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210421748.3A Pending CN114781510A (zh) 2022-04-21 2022-04-21 一种故障定位方法、装置、系统和存储介质

Country Status (1)

Country Link
CN (1) CN114781510A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115421950A (zh) * 2022-08-25 2022-12-02 广东博成网络科技有限公司 一种基于机器学习的自动化系统运维管理方法及系统
CN115426246A (zh) * 2022-09-01 2022-12-02 中国农业银行股份有限公司 告警处理方法、装置、服务器及存储介质
CN115484150A (zh) * 2022-09-01 2022-12-16 中国电信股份有限公司 告警信息的处理方法、系统、设备及存储介质
CN115599728A (zh) * 2022-11-30 2023-01-13 苏州浪潮智能科技有限公司(Cn) Fru设备的槽位确定方法、装置、设备及可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115421950A (zh) * 2022-08-25 2022-12-02 广东博成网络科技有限公司 一种基于机器学习的自动化系统运维管理方法及系统
CN115421950B (zh) * 2022-08-25 2024-01-23 广东博成网络科技有限公司 一种基于机器学习的自动化系统运维管理方法及系统
CN115426246A (zh) * 2022-09-01 2022-12-02 中国农业银行股份有限公司 告警处理方法、装置、服务器及存储介质
CN115484150A (zh) * 2022-09-01 2022-12-16 中国电信股份有限公司 告警信息的处理方法、系统、设备及存储介质
CN115484150B (zh) * 2022-09-01 2024-02-23 中国电信股份有限公司 告警信息的处理方法、系统、设备及存储介质
CN115599728A (zh) * 2022-11-30 2023-01-13 苏州浪潮智能科技有限公司(Cn) Fru设备的槽位确定方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN114781510A (zh) 一种故障定位方法、装置、系统和存储介质
US10417072B2 (en) Scalable predictive early warning system for data backup event log
EP3949324B1 (en) Dynamic monitoring, detection of emerging computer events
CN111290900B (zh) 一种基于微服务日志的软件故障检测方法
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN111309565A (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
CN113590451B (zh) 一种根因定位方法、运维服务器及存储介质
CN111274084A (zh) 故障诊断方法、装置、设备及计算机可读存储介质
CN112328425A (zh) 一种基于机器学习的异常检测方法和系统
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN115237717A (zh) 一种微服务异常检测方法和系统
CN111291096A (zh) 数据集构建方法、装置和存储介质及异常指标检测方法
CN115561546A (zh) 电力系统异常检测报警系统
CN116089218A (zh) 基于Kubernetes的历史数据和趋势分析的动态基线告警方法及系统
CN110766100A (zh) 轴承故障诊断模型构建方法、诊断方法及电子设备
CN111371581A (zh) 物联网卡业务异常检测的方法、装置、设备和介质
CN117221087A (zh) 告警根因定位方法、装置及介质
CN115514627A (zh) 一种故障根因定位方法、装置、电子设备及可读存储介质
CN116155541A (zh) 面向网络安全应用的自动化机器学习平台以及方法
US20220050763A1 (en) Detecting regime change in time series data to manage a technology platform
US11954955B2 (en) Method and system for collecting and monitoring vehicle status information
CN111798237A (zh) 基于应用日志的异常交易诊断方法及系统
CN114691505A (zh) 程序问题的定位方法、电子设备及存储介质
CN115408182A (zh) 业务系统故障定位方法及装置
CN113162904A (zh) 一种基于概率图模型的电力监控系统网络安全告警评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination