CN113986595A - 一种异常定位方法及装置 - Google Patents

一种异常定位方法及装置 Download PDF

Info

Publication number
CN113986595A
CN113986595A CN202111268322.0A CN202111268322A CN113986595A CN 113986595 A CN113986595 A CN 113986595A CN 202111268322 A CN202111268322 A CN 202111268322A CN 113986595 A CN113986595 A CN 113986595A
Authority
CN
China
Prior art keywords
alarm
abnormal
clustering
time period
network graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111268322.0A
Other languages
English (en)
Inventor
叶金瓒
尤嘉
王雅琪
林城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202111268322.0A priority Critical patent/CN113986595A/zh
Publication of CN113986595A publication Critical patent/CN113986595A/zh
Priority to PCT/CN2022/124393 priority patent/WO2023071761A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种异常定位方法及装置,该方法包括:获取业务系统在第一时段内各维度的第一告警数;针对任一维度,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,确定所述第一告警数是否异常;若异常,则基于所述业务系统的配置管理信息和所述第一时段内的各告警,构建网络图;所述网络图包含产生所述各告警的告警节点,以及与所述告警节点存在关联路径的关联节点;其中,所述第二时段的时长与所述第一时段的时长相同;将所述网络图中的告警汇聚节点确定为异常根因;所述告警汇聚节点为在所述网络图中关联路径满足第一设定要求的节点。上述方法用于提高运维效率,降低运维成本,实现自动化异常定位。

Description

一种异常定位方法及装置
技术领域
本发明涉及网络技术领域,尤其涉及一种异常定位方法及装置。
背景技术
近年来,随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出更高的要求。如,金融行业通过设置业务系统实现了大部分业务施行网上办理,极大的加快了业务处理速度。
目前,针对业务系统的运行维护,一般通过运维人员根据告警信息进行分析,以对异常进行定位。但是随着更多类业务功能需求增加,相应大量业务功能的开发,以及系统数据量剧增、数据结构和业务逻辑复杂化,运维人员对业务系统的运行维护的压力越来越大,且运维人员要具有丰富的经验才能相对准确定位异常,使得当前业务系统异常定位过于依赖运维人员的经验和知识水平。另外,人工运维也会导致异常定位周期长,耗费大量人工成本和业务系统异常耗费成本。
目前,亟需一种异常定位方法及装置,用于提高运维效率,降低运维成本,实现自动化异常定位。
发明内容
本发明实施例提供一种异常定位方法及装置,用于提高运维效率,降低运维成本,实现自动化异常定位。
第一方面,本发明实施例提供一种异常定位方法,该方法包括:
获取业务系统在第一时段内各维度的第一告警数;
针对任一维度,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,确定所述第一告警数是否异常;若异常,则基于所述业务系统的配置管理信息和所述第一时段内的各告警,构建网络图;所述网络图包含产生所述各告警的告警节点,以及与所述告警节点存在关联路径的关联节点;其中,所述第二时段的时长与所述第一时段的时长相同;
将所述网络图中的告警汇聚节点确定为异常根因;所述告警汇聚节点为在所述网络图中关联路径满足第一设定要求的节点。
上述方法中,采集业务系统的指标数据,根据异常的指标数据产生告警;若第一时段内任一维度的第一告警数超过设定阈值,则针对该维度,通过聚类算法在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,判断所述告警数是否异常;若是,则基于配置管理信息(如,从配置管理数据库中获取相关的配置管理信息)和所述第一时段内各告警构建网络图;确定所述网络图中是否存在告警汇聚节点,若存在,则所述告警汇聚节点为异常根因。如此,在通过聚类算法确定第一时段(如,当前单位时间)内的告警数异常时,则基于配置管理数据库,针对该第一时段内的各告警构建网络图,基于网络图分析告警汇聚点,确定告警汇聚点为异常根因,实现自动化异常定位,提高运维效率,降低运维成本。
可选的,还包括:若从所述网络图中未确定出告警汇聚节点,则获取业务系统变更记录;若确定所述第一告警数的增加趋势与所述业务系统变更记录存在时间相关性,则确定所述业务系统变更记录为异常根因。
上述方法中,若没有告警汇聚节点时,分析第一时段内告警数的增加趋势与业务系统变更记录(如,业务系统变更记录可以包括配置数据变更记录和/或子系统发布变更记录等)存在时间相关性。如此,考虑了业务系统变更可能引起的告警数异常,增加异常定位的全面性。
可选的,N个第二时段为与所述第一时段最近的前N个第二时段;基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,确定所述第一告警数是否异常,包括:
基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,若预设迭代次数中所述第一告警数单独在一个聚类中,则根据所述第一告警数和M个异常告警数,确定所述第一告警数是否异常。
上述方法中,通过聚类算法对第二告警数和所述第一告警数进行聚类,确定在预设迭代次数中第一告警数单独在一个聚类中,则可以认为该第一告警数相比于第一时段和第二时段中的各告警数量是一个‘突兀’的存在,第一告警数大概率是异常的。为了增加判断的准确性,再根据M个异常告警数计算第一告警数与该M个异常告警数的标准差,若第一告警数与异常告警数‘相似’,则证明该第一告警数异常。如此,通过双重计算,提高对第一告警数判断的准确性,进一步,提高异常定位的准确性。
可选的,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,包括:
将所述第一告警数和N个第二告警数加入第一集合;基于初始的第一聚类中心和第二聚类中心对所述第一集合中各告警数进行聚类,获取第一聚类和第二聚类;根据所述第一聚类和所述第二聚类更新所述第一聚类中心和所述第二聚类中心,并迭代对所述第一集合中各告警数进行聚类,直至达到所述预设迭代次数或所述第一告警数单独在一个聚类中。
上述方法中,若第一聚类中心和第二聚类中心是根据大量的历史异常告警数确定的,则在预设迭代次数中出现第一告警数单独存在于一个聚类中,则明显获取该第一告警数与各第二告警数的关系-差别大。如此,可以准确分析第一时段内第一告警数的变化趋势是否突兀,若突兀,则大概率异常。
可选的,根据所述第一告警数和M个异常告警数,确定所述第一告警数是否异常,包括:将所述第一告警数和M个异常告警数添加到第二集合中;计算所述第二集合的标准差,若所述第一告警数与所述标准差满足第二设定要求,则确定所述第一告警数异常。
上述方法中,若第一时段第一告警数单独在一个聚类中,则将该第一时段第一告警数与异常告警数数组计算标准差,若第一告警数大于标准差的3倍,则第一时段告警数不符合第二设定要求,认为该第一告警数异常。这里,第二设定要求可以为3σ准则或6σ准则等等,可以根据要求设定,具体上不做限制。
可选的,确定所述第一告警数是否异常之前,还包括:
确定所述第一告警数大于所述维度的设定阈值;
将所述网络图中的告警汇聚节点确定为异常根因,包括:
将所述网络图中出入度值最高的节点确定为告警汇聚节点。
上述方法中,设定阈值可以是根据历史异常告警数确定的,根据历史异常告警数确定一个数值,大于该数值的告警数大概率是异常的告警数,即,若第一告警数大于设定阈值,则可以对该第一告警数进行更细致的异常分析。如此,不必对每个告警数都进行计算,解决计算资源耗费的问题。网络图中出入度最高的节点,则认为该节点是告警汇聚节点。如此,则告警汇聚节点大概率是异常根因,加快异常根因的定位。
可选的,初始的第一聚类中心、第二聚类中心和M个异常告警数是通过所述维度的历史异常告警数确定的。
上述方法中,第一聚类中心、第二聚类中心和M个异常告警数通过所述维度的历史异常告警数确定。如此,可以提高判断异常告警数的准确度。
第二方面,本发明实施例提供一种异常定位装置,该装置包括:
获取模块,用于获取业务系统在第一时段内各维度的第一告警数;
处理模块,用于针对任一维度,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,确定所述第一告警数是否异常;若异常,则基于所述业务系统的配置管理信息和所述第一时段内的各告警,构建网络图;所述网络图包含产生所述各告警的告警节点,以及与所述告警节点存在关联路径的关联节点;其中,所述第二时段的时长与所述第一时段的时长相同;
所述处理模块还用于,将所述网络图中的告警汇聚节点确定为异常根因;所述告警汇聚节点为在所述网络图中关联路径满足第一设定要求的节点。
第三方面,本发明实施例还提供一种计算设备,包括:存储器,用于存储程序;处理器,用于调用所述存储器中存储的程序,按照获得的程序执行如第一方面的各种可能的设计中所述的方法。
第四方面,本发明实施例还提供一种计算机可读非易失性存储介质,包括计算机可读程序,当计算机读取并执行所述计算机可读程序时,使得计算机执行如第一方面的各种可能的设计中所述的方法。
本发明的这些实现方式或其他实现方式在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种异常定位的架构示意图;
图2为本发明实施例提供的一种异常定位方法的流程示意图;
图3为本发明实施例提供的一种网络图示意图;
图4为本发明实施例提供的一种网络图示意图;
图5为本发明实施例提供的一种异常定位方法的流程示意图;
图6为本发明实施例提供的一种异常定位装置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种异常定位的架构示意图,其中业务系统101中针对实例、主机、数据库、网络、子系统、CEPH(文件系统)、域名分析系统、网络专线、容器等等维度均存在各项指标的监测。如,针对主机维度,可以存在内存占用率、数据传输速度、丢包率、连接正确率等指标监测项,若监测到的指标监测数据超过对应指标监测项的指标值,则产生告警。异常分析定位系统102中的数据处理模块采集到业务系统101中各维度的告警,存储在数据库中。这里也可以是异常分析定位系统102中的数据处理模块中设置针对业务系统101的监控功能和各指标监测项的指标值,该监控功能可以对业务系统101各维度的对应各指标监测项进行监测获取指标监测数据,若指标监测数据超过对应指标监测项的指标值,则生成告警,发送至数据库。这里对各维度的告警获取方式不做限定。
异常识别模块根据数据库中各维度的告警,统计各维度每个时段中告警数,针对任一维度,若确定第一时段(第一时段可以是当前时段,如此可以及时完成根因定位,也可以是当前时段外的任一时段,具体不做限定,可以根据需要具体设置)的第一告警数未超过设定阈值,则认为该第一告警数是正常情况下的告警数。其中,设定阈值可以是根据历史异常告警数确定的,若告警数超过设定阈值,则可以认为该告警数可能存在异常,若告警数没有超过该设定阈值,则认为该告警数是正常的告警数。若确定第一时段(第一时段可以是当前时段,如此可以及时完成根因定位,也可以是当前时段外的任一时段,具体不做限定,可以根据需要具体设置)的第一告警数超过设定阈值,则确定需要对第一时段的第一告警数进行进一步的异常识别。异常识别模块从数据库中获取第一时段最近的前N个第二时段的第二告警数(这里可以获取第一时段前最近的前N个第二时段的告警数,也可以不是最近的,如,在第一时段前刚刚因为业务系统变更或主机故障等导致第一时段前最近的多时段告警数异常,则可以选取该多时段以外的普通水平下的N个时段的告警数),根据第一告警数和N个第二告警数得到第一集合,根据第一聚类中心和第二聚类中心对第一集合进行聚类获取第一聚类和第二聚类,这里的第一聚类中心和第二聚类中心可以是根据大量异常告警数确定的(如,这里的聚类算法可以是聚类算法模型,该剧类算法模型通过学习大量的异常告警数获得第一聚类中心、第二聚类中心和设定阈值,以及M个异常告警数)。分别针对第一聚类、第二聚类重新计算聚类中心,进行预设迭代次数的聚类计算。若在预设迭代次数中存在至少一次,第一告警数单独存在于一个聚类中,则根据第一告警数和M个异常告警数获取第二集合,计算第二集合的标准差。若第一告警数大于3倍标准差,则认为该第一告警数异常。异常定位模块根据该第一告警数中的各告警和配置管理信息生成网络图,即,根据各告警的节点信息,以及与各告警节点存在关联路径的关联节点信息生成网络图。从网络图中确定出入度值最高的节点,则该节点为告警汇聚节点,该告警节点为异常根因。若该网络图中没有告警汇聚节点,则获取业务系统变更记录,确定第一告警数的增加趋势与该业务系统变更记录是否存在时间相关性,若存在,则确定该业务系统变更记录为异常根因。如此,可以实现高效率的自动化根因定位,大大降低运维周期,节约运维成本。
另外,这里数据库中可以存储算法参数(如,第一聚类中心、第二聚类中心、M个异常告警数等)、业务系统变更记录、图配置(如,建立网络图的逻辑数据和参数数据等)等数据,用于提供给异常识别模块和异常定位模块。还可以存储结论数据,如,最终生成的网络图、运维人员分析异常根因的相关信息等,便于后续运维人员基于该结论数据调整或设置运维策略等。
基于此,本发明实施例提供了一种异常定位方法的流程,如图2所示,包括:
步骤201、获取业务系统在第一时段内各维度的第一告警数;
此处,第一时段可以是1秒、1分钟、1小时等,具体不做限定。各维度可以是实例维度、主机维度、网络维度、网络状线维度、子系统维度、CEPH(文件系统)维度、TDSQL(腾讯云企业级分布式数据库)维度、REDIS(Remote Dictionary Server,即远程字典服务)维度、WEMQ(消息处理机制)维度、DNS(域名解析服务)维度等等,针对每个维度又可以有至少一个指标监测项,当指标监测数据超出该指标监测项的指标值时,产生告警。每个维度统计告警数的时段长度可以相同,也可以不同,如,主机维度统计告警数的时段长度可以为每小时统计获取一次告警数,网络维度统计告警数的时段长度可以为每分钟统计获取一次告警数,可以根据对应维度的具体需要设置,这里具体不做限制。
步骤202、针对任一维度,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,确定所述第一告警数是否异常;若异常,则基于所述业务系统的配置管理信息和所述第一时段内的各告警,构建网络图;所述网络图包含产生所述各告警的告警节点,以及与所述告警节点存在关联路径的关联节点;其中,所述第二时段的时长与所述第一时段的时长相同;
此处,第一告警数是需要进行异常识别的告警数,若异常识别确定该第一告警数异常,则根据网络图对该第一告警数中的各告警进行分析完成异常根因定位。第二时段可以是1秒、1分钟、1小时等,具体不做限定。第一时段和第二时段可以相等。其中,业务系统的配置管理信息可以是从配置管理数据库中获取的,该配置管理信息中包含各节点和各节点的各配置项全生命周期的信息以及各节点和各配置项之间的关系(包括物理关系(如,端口之间的连接等)、实时通信关系(如,网络之间的连接等)、非实时通信关系和依赖关系(软件或硬件之间的依赖关系,具体不做限制。如,节点之前存在业务处理的先后关系等)等等)。则可以根据第一时段中的各告警的节点信息(如,IP地址、标识信息等等)和配置管理数据库/配置管理信息,获取告警节点和与告警节点存在关联关系(如,物理关系、实时通信关系、非实时通信关系和依赖关系等等)的节点,生成网络图。
网络图构建的方式可以为:以节点的标识、节点提供的服务、设备类型等信息的一种或多种作为网络图中的节点,以节点和节点之间的关联路径为网络图中节点间的连接线构建网络图。节点之间的关联路径可以为节点之间的物理端口通过数据线、通信线等物理线连接、节点之间通过网络连接、节点之间通过通信线或网络连接存在实时通信关系或非实时通信关系等等。节点之间存在其中一种或多种连接关系,则可以认为节点之间存在关联路径。基于此,本发明实施例提供了一种网络图,如图3所示,可以是根据实时通信关系建立的网络图,其中,核心交换机1与核心交换机2、接入交换机1-接入交换机n、核心交换机3双向连接,与核心交换机4单向连接(核心交换机4至核心交换机1实时通信)。核心交换机2与核心交换机1、接入交换机1-接入交换机n、核心交换机4双向连接,与核心交换机3单向连接(核心交换机3至核心交换机2实时通信)。核心交换机2产生核心交换机告警2、核心交换机3产生核心交换机告警3、核心交换机4产生核心交换机告警4、接入交换机1产生接入交换机告警1、接入交换机2产生接入交换机告警2…接入交换机n产生接入交换机告警n,则可以根据该网络图中交换机的出入度确定核心交换机2为告警汇聚节点。分析方式可以为:根据告警中的“端口关闭”相关的信息,确定与核心交换机2连接的交换机设备路径上都产生了告警,则可以确定核心交换机2是异常根因。
步骤203、将所述网络图中的告警汇聚节点确定为异常根因;所述告警汇聚节点为在所述网络图中关联路径满足第一设定要求的节点。
此处,告警汇聚节点可以是网络图中出入度最高的节点。即,第一设定要求可以为出入度最高的节点。第一设定要求也可以是存在特殊设置的要求,如,该节点故障频繁度高等等。告警汇聚节点和告警节点可以是同一个节点也可以是不同节点,即,告警汇聚节点可以是告警节点也可以是关联节点。如,上述图3对应的示例中,告警节点为核心交换机2、核心交换机3、核心交换机4、接入交换机1、接入交换机2…接入交换机n。核心交换机2为出入度最高的节点,且产生告警的告警节点均与其存在关联路径的节点,可以确定核心交换机2为告警汇聚节点。
上述方法中,采集业务系统的指标数据,根据异常的指标数据产生告警;若第一时段内任一维度的第一告警数超过设定阈值,则针对该维度,通过聚类算法在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,判断所述告警数是否异常;若是,则基于配置管理信息(如,从配置管理数据库中获取相关的配置管理信息)和所述第一时段内各告警构建网络图;确定所述网络图中是否存在告警汇聚节点,若存在,则所述告警汇聚节点为异常根因。如此,在通过聚类算法确定第一时段(如,当前单位时间)内的告警数异常时,则基于配置管理数据库,针对该第一时段内的各告警构建网络图,基于网络图分析告警汇聚点,确定告警汇聚点为异常根因,实现自动化异常定位,提高运维效率,降低运维成本。
本发明实施例提供了又一种异常定位方法,还包括:若从所述网络图中未确定出告警汇聚节点,则获取业务系统变更记录;若确定所述第一告警数的增加趋势与所述业务系统变更记录存在时间相关性,则确定所述业务系统变更记录为异常根因。也就是说,若网络图中没有告警汇聚节点,则可以根据业务系统变更记录是否与第一告警数的增加趋势存在时间相关性,如果存在,则可以认为异常根因为业务系统变更。如,本发明实施例提供的一种没有告警汇聚节点的网络图,如图4所示,其中,应用1和应用2分别部署在主机1和主机2上,应用1和应用2分别使用数据库1和数据库2,主机1和主机2之间通过线路:接入交换机1连接核心交换机1,核心交换机1连接核心交换机2,核心交换机2连接接入交换机2,接入交换机2连接主机2完成连接。主机1产生主机告警1、数据库1产生数据库告警1、主机2产生主机告警2、数据库2产生数据库告警2。可以看出图4中的网络图中没有出入度最高的节点-告警汇聚节点。此时,可以确定业务系统变更记录是否与第一告警数的增加趋势存在时间相关性,如,在11:20分开始出现大量数据库性能、应用子系统告警,也有部分网络设备告警,告警节点没有明细汇聚性-没有告警汇聚节点,但在11:18分有对应告警子系统的变更发布记录,由于变更发布记录和告警时间强相关,即,变更发布记录完成后,立即生成大量告警,则可以认为变更发布时间和告警产生的时间具有强相关性,则可以将该子系统变更发布记录推举为异常根因。此处,业务系统变更记录可以包括子系统发布变更、配置数据变更等等。另外,时间相关性还可以根据业务系统变更内容的特性确定。如,业务系统中参数配置变更后,该参数配置在24小时后生效,恰在该参数配置变更24小时后,产生大量告警,仍可以认为业务系统变更-参数配置变更与告警存在时间相关性。换句话说,时间相关性的分析,不仅局限于时间信息,还可以考虑业务系统变更内容的特性等信息。
本发明实施例提供了又一种异常定位方法,N个第二时段为与所述第一时段最近的前N个第二时段;基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,确定所述第一告警数是否异常,包括:基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,若预设迭代次数中所述第一告警数单独在一个聚类中,则根据所述第一告警数和M个异常告警数,确定所述第一告警数是否异常。此处,聚类算法可以实现对第一告警数和N个第二告警数进行聚类的任何聚类算法,如,k-means、k-medoids等算法。也就是说,通过聚类算法对第一告警数和N个第二告警数迭代聚类预设迭代次数,在预设迭代次数中,存在至少一次第一告警数单独在一个聚类中,则根据第一告警数和M个异常告警数,确定第一告警数是否异常。即,在预设迭代次数中,存在第一告警数单独在一个聚类中,则可以认为该第一告警数相比于N个第二告警数是一个突兀的存在,可能是异常告警数,为了提高告警异常识别的准确度,进一步分析第一告警数与M个异常告警数的“相似度”,来判断第一告警数是否是异常的。
本发明实施例提供了一种聚类方法,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,包括:将所述第一告警数和N个第二告警数加入第一集合;基于初始的第一聚类中心和第二聚类中心对所述第一集合中各告警数进行聚类,获取第一聚类和第二聚类;根据所述第一聚类和所述第二聚类更新所述第一聚类中心和所述第二聚类中心,并迭代对所述第一集合中各告警数进行聚类,直至达到所述预设迭代次数或所述第一告警数单独在一个聚类中。在一种示例中,若聚类算法是k-means,可以令第一聚类中心为a1、第一聚类中心为a2。这里可以设置k-means模型,根据大量历史异常告警数对该k-means模型训练获取第一聚类中心、第二聚类中心、M个异常告警数和设定阈值等模型相关参数。则可以基于第一聚类中心和第二聚类中心对第一集合中各告警数进行聚类,在一种情况下,获取第一聚类和第二聚类满足如下公式:
Figure BDA0003327725240000121
其中,d表示所述第一集合中告警数与第一聚类中心或第二聚类中心的距离,x1i表示所述第一集合中的任一告警数,x2i表示所述第一聚类中心或第二聚类中心,N表示所述第一集合中包含的告警数的数量。分别对第一聚类和第二聚类进行迭代计算聚类中心,满足如下公式:
Figure BDA0003327725240000122
其中,aj表示聚类中心,ci表示所述第一聚类对应的告警数集合或第二聚类对应的告警数的集合,x表示ci中的告警数。在一种情况下,若第一告警数在预设迭代次数的聚类中,没有一次单独存在于一个聚类中,则可以认为该第一告警数正常。若存在至少一次单独存在于一个聚类中,则可以认为该第一告警数异常,本发明为了提高异常告警数识别的准确性,还可以进一步计算,如下异常识别方法。
本发明实施例提供了一种异常识别方法,根据所述第一告警数和M个异常告警数,确定所述第一告警数是否异常,包括:将所述第一告警数和M个异常告警数添加到第二集合中;计算所述第二集合的标准差,若所述第一告警数与所述标准差满足第二设定要求,则确定所述第一告警数异常。也就是说,通过计算第一告警数和M个异常告警数的标准差,根据标准差确定第一告警数与M各异常告警数的关系,这里第二设定要求可以是3σ准则(拉依达准则)或6σ准则等,若满足了第二设定要求,则认为该第一告警数相近于M个异常告警数,第一告警数同样为异常告警数。在一种示例中,若第一告警数大于3倍标准差,则认为该第一告警数异常。
本发明实施例提供了一种异常定位方法,确定所述第一告警数是否异常之前,还包括:确定所述第一告警数大于所述维度的设定阈值;将所述网络图中的告警汇聚节点确定为异常根因,包括:将所述网络图中出入度值最高的节点确定为告警汇聚节点。也就是说,第一告警数大于设定阈值后,则判断该告警数是否异常,通过设定阈值对第一告警数进行初步判断,防止对每个时段的告警数均进行后续聚类算法异常判断流程,节约极端资源。将出入度最高的节点作为告警汇聚节点。即,出入度最高的节点对各节点的影响最大,则最有可能是告警汇聚节点-异常根因。这里也可以不止是通过出入度值判断告警汇聚节点,还可以根据网络图中各节点的资源信息,如,节点空闲资源最低、资源占用率最高等判断该节点是否是异常根因。可以根据具体业务系统的特性确定哪些信息最有可能造成异常,则将该信息作为判断根因的条件之一,这里对异常根因节点的具体选择方式不做限定。
本发明实施例提供了一种参数确定方法,初始的第一聚类中心、第二聚类中心和M个异常告警数是通过所述维度的历史异常告警数确定的。
此处,所述告警数为业务系统在对应维度和设定时段内(该设定时段与第一时段和第二时段的时段长度相同)产生告警的数量。如,单笔交易的交易金额大于100万元则产生告警,一分钟内(设定时段),交易金额大于100万元的交易数量超过20次,则产生20个告警,则告警数为业务系统在该交易维度一分钟内产生20次告警的数量。基于上述示例,根据大量历史异常告警数对该k-means模型训练获取初始的第一聚类中心、初始的第二聚类中心、M个异常告警数和设定阈值等模型相关参数,可以选判断第一告警数是否大于设定阈值,若小于该设定阈值,则可以认为该第一告警数是异常告警数的可能性很小,无需进一步分析,若第一告警数大于设定阈值,则该第一告警数存在为异常告警数的风险,需要进行对该第一告警数进行异常识别。也就是说,初始的第一聚类中心、初始的第二聚类中心、M个异常告警数和设定阈值可以是根据大量历史数据(历史异常告警数)对聚类模型训练获取的。
基于上述方法流程,本申请实施例提供了一种异常定位方法的流程,如图5所示,包括:
步骤501、针对每个维度的聚类算法获取初始第一聚类中心和第二聚类中心,以及设定阈值和M个异常告警数。
步骤502、获取一个维度的第一时段的第一告警数。
步骤503、判断第一告警数是否大于设定阈值,若大于设定阈值,则执行步骤505,否则执行504。
步骤504、确定第一告警数为正常告警数,结束针对第一告警数的异常识别与异常根因定位流程。
步骤505、获取N个第二时段的第二告警数,确定第一告警数和N个第二告警数组成的第一集合。
步骤506、根据第一聚类中心和第二聚类中心对第一集合进行聚类获取第一聚类和第二聚类。
步骤507、分别对第一聚类和第二聚类重新计算聚类中心,进行预设迭代次数的聚类,判断在预设迭代次数的聚类中是否存在至少一次,第一告警数单独存在于一个聚类中,若是,则执行步骤508,否则执行步骤504。
步骤508、确定第一告警数和M个异常告警数组成的第二集合。
步骤509、计算第二集合的标准差,确定第一告警数是否大于标准差的3倍,若不是,则执行步骤504,否则执行步骤510。
步骤510、从数据库中获取第一时段中的各告警和配置管理信息,根据配置管理信息和该各告警生成网络图。
步骤511、是否能够在网络图中确定告警汇聚节点,若可以,则执行步骤512,否则执行步骤513。
步骤512、确定该告警汇聚节点为异常根因。
步骤513、分析业务系统变更记录是否与第一时段的第一告警数存在时间相关性,若是,则确定该业务系统变更记录为异常根因。
需要说明的是,上述流程步骤并不唯一,步骤501可以在步骤503之前任一步骤前后执行,或者,步骤501中的初始的第一聚类中心、第二聚类中心可以在步骤506之前的任一步骤前后执行。
基于同样的构思,本发明实施例提供一种异常定位装置,图6为本申请实施例提供的一种异常定位装置示意图,如图6示,包括:
获取模块601,用于获取业务系统在第一时段内各维度的第一告警数;
处理模块602,用于针对任一维度,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,确定所述第一告警数是否异常;若异常,则基于所述业务系统的配置管理信息和所述第一时段内的各告警,构建网络图;所述网络图包含产生所述各告警的告警节点,以及与所述告警节点存在关联路径的关联节点;其中,所述第二时段的时长与所述第一时段的时长相同;
所述处理模块602还用于,将所述网络图中的告警汇聚节点确定为异常根因;所述告警汇聚节点为在所述网络图中关联路径满足第一设定要求的节点。
可选的,所述处理模块602还用于,若从所述网络图中未确定出告警汇聚节点,则所述获取模块601还用于,获取业务系统变更记录;所述处理模块602还用于,若确定所述第一告警数的增加趋势与所述业务系统变更记录存在时间相关性,则确定所述业务系统变更记录为异常根因。
可选的,所述处理模块602具体用于,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,若预设迭代次数中所述第一告警数单独在一个聚类中,则根据所述第一告警数和M个异常告警数,确定所述第一告警数是否异常。
可选的,所述处理模块602具体用于,将所述第一告警数和N个第二告警数加入第一集合;基于初始的第一聚类中心和第二聚类中心对所述第一集合中各告警数进行聚类,获取第一聚类和第二聚类;根据所述第一聚类和所述第二聚类更新所述第一聚类中心和所述第二聚类中心,并迭代对所述第一集合中各告警数进行聚类,直至达到所述预设迭代次数或所述第一告警数单独在一个聚类中。
可选的,所述处理模块602具体用于,将所述第一告警数和M个异常告警数添加到第二集合中;计算所述第二集合的标准差,若所述第一告警数与所述标准差满足第二设定要求,则确定所述第一告警数异常。
可选的,所述处理模块602还用于,确定所述第一告警数大于所述维度的设定阈值;所述处理模块602具体用于,将所述网络图中出入度值最高的节点确定为告警汇聚节点。
可选的,初始的第一聚类中心、第二聚类中心和M个异常告警数是通过所述维度的历史异常告警数确定的。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种异常定位方法,其特征在于,所述的方法包括:
获取业务系统在第一时段内各维度的第一告警数;
针对任一维度,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,确定所述第一告警数是否异常;若异常,则基于所述业务系统的配置管理信息和所述第一时段内的各告警,构建网络图;所述网络图包含产生所述各告警的告警节点,以及与所述告警节点存在关联路径的关联节点;其中,所述第二时段的时长与所述第一时段的时长相同;
将所述网络图中的告警汇聚节点确定为异常根因;所述告警汇聚节点为在所述网络图中关联路径满足第一设定要求的节点。
2.如权利要求1中所述的方法,其特征在于,还包括:
若从所述网络图中未确定出告警汇聚节点,则获取业务系统变更记录;
若确定所述第一告警数的增加趋势与所述业务系统变更记录存在时间相关性,则确定所述业务系统变更记录为异常根因。
3.如权利要求1中所述的方法,其特征在于,N个第二时段为与所述第一时段最近的前N个第二时段;基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,确定所述第一告警数是否异常,包括:
基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,若预设迭代次数中所述第一告警数单独在一个聚类中,则根据所述第一告警数和M个异常告警数,确定所述第一告警数是否异常。
4.如权利要求3中所述的方法,其特征在于,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,包括:
将所述第一告警数和N个第二告警数加入第一集合;
基于初始的第一聚类中心和第二聚类中心对所述第一集合中各告警数进行聚类,获取第一聚类和第二聚类;根据所述第一聚类和所述第二聚类更新所述第一聚类中心和所述第二聚类中心,并迭代对所述第一集合中各告警数进行聚类,直至达到所述预设迭代次数或所述第一告警数单独在一个聚类中。
5.如权利要求3中所述的方法,其特征在于,根据所述第一告警数和M个异常告警数,确定所述第一告警数是否异常,包括:
将所述第一告警数和M个异常告警数添加到第二集合中;
计算所述第二集合的标准差,若所述第一告警数与所述标准差满足第二设定要求,则确定所述第一告警数异常。
6.如权利要求1-5中任一所述的方法,其特征在于,确定所述第一告警数是否异常之前,还包括:
确定所述第一告警数大于所述维度的设定阈值;
将所述网络图中的告警汇聚节点确定为异常根因,包括:
将所述网络图中出入度值最高的节点确定为告警汇聚节点。
7.如权利要求6中所述的方法,其特征在于,初始的第一聚类中心、第二聚类中心和M个异常告警数是通过所述维度的历史异常告警数确定的。
8.一种异常定位装置,其特征在于,所述的装置包括:
获取模块,用于获取业务系统在第一时段内各维度的第一告警数;
处理模块,用于针对任一维度,基于所述维度在所述第一时段的前N个第二时段的第二告警数和所述第一告警数进行聚类,确定所述第一告警数是否异常;若异常,则基于所述业务系统的配置管理信息和所述第一时段内的各告警,构建网络图;所述网络图包含产生所述各告警的告警节点,以及与所述告警节点存在关联路径的关联节点;其中,所述第二时段的时长与所述第一时段的时长相同;
所述处理模块还用于,将所述网络图中的告警汇聚节点确定为异常根因;所述告警汇聚节点为在所述网络图中关联路径满足第一设定要求的节点。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,当所述程序在计算机上运行时,使得计算机实现执行权利要求1至7中任一项所述的方法。
10.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行如权利要求1至7任一权利要求所述的方法。
CN202111268322.0A 2021-10-29 2021-10-29 一种异常定位方法及装置 Pending CN113986595A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111268322.0A CN113986595A (zh) 2021-10-29 2021-10-29 一种异常定位方法及装置
PCT/CN2022/124393 WO2023071761A1 (zh) 2021-10-29 2022-10-10 一种异常定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111268322.0A CN113986595A (zh) 2021-10-29 2021-10-29 一种异常定位方法及装置

Publications (1)

Publication Number Publication Date
CN113986595A true CN113986595A (zh) 2022-01-28

Family

ID=79744033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111268322.0A Pending CN113986595A (zh) 2021-10-29 2021-10-29 一种异常定位方法及装置

Country Status (2)

Country Link
CN (1) CN113986595A (zh)
WO (1) WO2023071761A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071761A1 (zh) * 2021-10-29 2023-05-04 深圳前海微众银行股份有限公司 一种异常定位方法及装置
CN116661426A (zh) * 2023-07-14 2023-08-29 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统
CN117648588A (zh) * 2024-01-29 2024-03-05 和尘自仪(嘉兴)科技有限公司 基于相关性网络图聚类分析的气象雷达参数异常识别方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117632666B (zh) * 2024-01-25 2024-05-07 杭州阿里云飞天信息技术有限公司 一种告警方法、设备及存储介质
CN117692345B (zh) * 2024-02-01 2024-06-11 山东厚普信息技术有限公司 一种基于人工智能的it运营方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550714A (zh) * 2015-12-30 2016-05-04 国家电网公司 一种异构网络环境中告警信息的聚类融合方法
US10275298B2 (en) * 2016-10-12 2019-04-30 Salesforce.Com, Inc. Alerting system having a network of stateful transformation nodes
CN110061854A (zh) * 2018-01-18 2019-07-26 华东明 一种无边界网络智能运维管理方法与系统
CN109558298B (zh) * 2018-10-12 2022-07-19 平安科技(深圳)有限公司 基于深度学习模型的告警执行频率优化方法及相关设备
US11586972B2 (en) * 2018-11-19 2023-02-21 International Business Machines Corporation Tool-specific alerting rules based on abnormal and normal patterns obtained from history logs
CN109684181B (zh) * 2018-11-20 2020-08-07 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
CN113497726B (zh) * 2020-04-01 2022-12-09 中国移动通信集团山东有限公司 告警监控方法、系统、计算机可读存储介质及电子设备
CN113986595A (zh) * 2021-10-29 2022-01-28 深圳前海微众银行股份有限公司 一种异常定位方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071761A1 (zh) * 2021-10-29 2023-05-04 深圳前海微众银行股份有限公司 一种异常定位方法及装置
CN116661426A (zh) * 2023-07-14 2023-08-29 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统
CN116661426B (zh) * 2023-07-14 2023-09-22 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统
CN117648588A (zh) * 2024-01-29 2024-03-05 和尘自仪(嘉兴)科技有限公司 基于相关性网络图聚类分析的气象雷达参数异常识别方法
CN117648588B (zh) * 2024-01-29 2024-04-26 和尘自仪(嘉兴)科技有限公司 基于相关性网络图聚类分析的气象雷达参数异常识别方法

Also Published As

Publication number Publication date
WO2023071761A1 (zh) 2023-05-04

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
CN113986595A (zh) 一种异常定位方法及装置
CN111158977B (zh) 一种异常事件根因定位方法及装置
US10963330B2 (en) Correlating failures with performance in application telemetry data
CN111984503A (zh) 一种监控指标数据异常数据识别的方法及装置
CN111309565B (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
KR20220114986A (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
CN110784355A (zh) 一种故障识别方法及装置
CN110674014A (zh) 一种确定异常查询请求的方法及装置
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN111176953B (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN115514619B (zh) 告警收敛方法及系统
CN110932901A (zh) 一种告警等级调整方法及系统
CN112801316A (zh) 基于多指标数据的故障定位方法、系统设备及存储介质
CN114356734A (zh) 服务异常检测方法和装置、设备、存储介质
CN111258798A (zh) 监控数据的故障定位方法、装置、计算机设备及存储介质
CN113515434A (zh) 异常分类方法、装置、异常分类设备及存储介质
US11743281B1 (en) Microservices anomaly detection
CN109687999A (zh) 一种告警故障的关联分析方法、装置及设备
CN113123955B (zh) 柱塞泵异常检测方法、装置、存储介质及电子设备
CN113472881B (zh) 在线终端设备的统计方法和装置
CN110389875A (zh) 用于监控计算机系统运行状态的方法、装置和存储介质
CN113285978B (zh) 基于区块链和大数据的故障识别方法及通用计算节点
CN115858606A (zh) 时序数据的异常检测方法、装置、设备及存储介质
CN114157553A (zh) 一种数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination