CN112600719A - 告警聚类方法、装置及存储介质 - Google Patents

告警聚类方法、装置及存储介质 Download PDF

Info

Publication number
CN112600719A
CN112600719A CN202110237469.7A CN202110237469A CN112600719A CN 112600719 A CN112600719 A CN 112600719A CN 202110237469 A CN202110237469 A CN 202110237469A CN 112600719 A CN112600719 A CN 112600719A
Authority
CN
China
Prior art keywords
alarm
network element
entity node
tree
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110237469.7A
Other languages
English (en)
Inventor
王明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhuasan Artificial Intelligence Technology Co ltd
Original Assignee
Xinhuasan Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhuasan Artificial Intelligence Technology Co ltd filed Critical Xinhuasan Artificial Intelligence Technology Co ltd
Priority to CN202110237469.7A priority Critical patent/CN112600719A/zh
Publication of CN112600719A publication Critical patent/CN112600719A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种告警聚类方法、装置及存储介质,用于提高针对网络设备告警的聚类分组的效率和准确性。本公开通过解析告警消息获得告警的网元拓扑元素属性,网元拓扑元素属性中包括产生告警的网元及其上级网元的标识信息,对告警时间窗内的告警基于网元拓扑元素属性构建告警树,基于告警树中的网元拓扑关系及时间约束条件对窗口分组内的告警对象进行聚类分组。本公开很好地实现了基于拓扑相关性和时间约束条件的数据聚类,过程结构清晰,实施简单,执行效率高,分组结果准确。

Description

告警聚类方法、装置及存储介质
技术领域
本公开涉及网络及大数据技术领域,尤其涉及一种告警聚类方法、装置及存储介质。
背景技术
随着信息技术革命的不断发展和持续深化,现代通信网络遍布生活中的各个地方,应用于各种生活场景下,极大地改善了的生活,人们也越来越依赖于通信网络。这就要求通信网络必须具有极高的可靠性和安全性,当复杂的网络结构中的某些节点出现通信故障时,必须能够自动、快速、智能地诊断故障,定位故障,并有效地进行网络的恢复,这也是网络管理的重要研究内容和实现目标。现代通信网络在运行中一般都具有完备的日志系统,对网络的运行状态、操作记录、报警状态、报警恢复情况等都有实时记录。
通信网络日志为网络管理人员提供了自动化的数据记录和第一手参考资料,同时也为网络诊断提供了大量的原始检测数据。自然而然地,利用好通信网络日志,进行相应的数据提取和分析,获取其中有重要意义的网络告警信息,再利用合适的故障诊断方法,建立诊断引擎,实现故障发现和定位,已成为近年来一种常用的研究思路。
对于采集到的告警数据,需要过滤掉不完整的数据、错误的数据、重复的数据,使得最终的告警数据能够满足数据挖掘工作的需要。通过对告警数据进行清洗,减少一部分无用的告警数据,防止挖掘出信息不全或者无用的结果。将不完整的数据、错误的数据能够补全的或修复的进行处理后再提取,如果无法处理,需要将这类数据删除。
对于数量庞大的告警,可以按照管理要求过滤掉部分不重要告警过滤的告警信息,减少监控人员的监控告警量,减少轻微告警对于监控的干扰,把精力集中到监控认为重要的告警信息方面,提高监控的质量。
对告警数据进行聚类即硬划分,将告警划分为告警组,是后续根据告警关联规则对告警进行关联分析的基础。现有技术中,基于设备使用DBSCAN算法在时间维度进行聚类的方法,不够细致准确,采用文本相似性和拓扑相关性进行聚类又过于复杂,不适合网络设备类的告警。
发明内容
有鉴于此,本公开提供一种告警聚类方法、装置及存储介质,用于提高针对网络设备告警的聚类方法的效率和准确性。
图1为本公开提供的告警聚类方法的步骤流程图,本公开提供的告警聚类方法包括:
步骤101. 获取从网络设备采集的告警对象,所述告警对象为结构化的告警数据,其中包括网元拓扑元素属性,网元拓扑元素属性用于构建告警树,网元拓扑元素属性中包括产生告警的网元及其上级网元的标识信息;
步骤102.根据告警时间对告警对象进行排序,按预设的告警时间窗将告警对象划分到多个窗口分组中;
步骤103. 以窗口分组为单位,基于窗口分组内的告警对象的网元拓扑元素属性构建告警树;所述告警树以网元设备为根节点,以产生告警的网元作为网元实体节点,根据网元的层级所属关系进行构建;
步骤104.基于告警树中的网元拓扑关系及时间约束条件对窗口分组内的告警对象进行聚类,将告警对象划分为一个或多个告警组。
进一步地,以链表数据结构将告警对象关联到告警树中的网元实体节点上,所述网元实体节点还包括时间跨度属性,时间跨度属性的值为该网元实体节点上最早产生和最后产生的告警之间的时间跨度范围。
进一步地,在一个窗口分组内,当多个网络设备产生告警时,该窗口分组内将包括多个告警树,多个告警树构成告警森林。
进一步地,所述基于告警树中的网元拓扑关系及时间约束条件对窗口分组内的告警对象进行聚类的方法为:
当某网元对应的网元实体节点存在上层网元实体节点时,则将该网元实体节点与其所属的上层网元实体节点划分到同一网元分组中,将告警森林中的告警对象划分为若干拓扑独立的告警集合;
根据给定的时间约束条件,对每个告警集合中的告警对象进行聚类。
进一步地,所述告警对象的网元拓扑元素属性由数据采集组件基于告警日志模板解析所采集的告警消息获得。
图2为本公开一实施例提供的一种告警聚类装置结构示意图,该装置200中的各功能模块可以采用软件、硬件或软硬件相结合的方式实现。各模块可部署在一个硬件设备上实施上述方法的所有步骤,也可分散部署在不同硬件设备上由多个硬件设备分别实施上述方法中的一个或若干步骤从而共同实施以实现本公开的发明目的。当由多个硬件设备共同实施时,由于各硬件设备之间相互协作的目的是共同实现本发明目的,一方的动作和处理结果确定了另一方的动作执行的时机及可能获得的结果,因此,在逻辑上可视为各模块彼此之间具有相互指挥和控制关系。将该装置200包括:
告警获取模块210,用于获取从网络设备采集的告警对象,所述告警对象为结构化的告警数据,其中包括网元拓扑元素属性,网元拓扑元素属性用于构建告警树,网元拓扑元素属性中包括产生告警的网元及其上级网元的标识信息;
窗口分组模块220,用于根据告警时间对告警对象进行排序,按预设的告警时间窗将告警对象划分到多个窗口分组中;
告警树构建模块230,用于以窗口分组为单位,基于窗口分组内的告警对象的网元拓扑元素属性构建告警树;所述告警树以网元设备为根节点,以产生告警的网元作为网元实体节点,根据网元的层级所属关系进行构建;
告警聚类模块240,用于基于告警树中的网元拓扑关系及时间约束条件对窗口分组内的告警对象进行聚类,将告警对象划分为一个或多个告警组。
进一步地,告警树构建模块230以链表数据结构将告警对象关联到告警树中的网元实体节点上,所述网元实体节点还包括时间跨度属性,时间跨度属性的值为该网元实体节点上最早产生和最后产生的告警之间的时间跨度范围。
告警聚类模块240进一步包括:
网元分组子模块241,用于当某网元对应的网元实体节点存在上层网元实体节点时,则将该网元实体节点与其所属的上层网元实体节点划分到同一网元分组中,将告警森林中的告警对象划分为若干拓扑独立的告警集合;
集合聚类分组模块242,用于根据给定的时间约束条件,对每个告警集合中的告警对象进行聚类。
图3为本公开一实施例提供的一种电子设备结构示意图,该设备300包括:诸如中央处理单元(CPU)的处理器310、通信总线320、通信接口340以及存储介质330。其中,处理器310与存储介质330可以通过通信总线320相互通信。存储介质330内存储有计算机程序,当该计算机程序被处理器310执行时即可实现本公开提供的方法的各步骤。
其中,存储介质可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。另外,存储介质还可以是至少一个位于远离前述处理器的存储装置。处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本公开提供的基于告警树对告警进行聚类分组的方法,很好地实现了基于拓扑相关性和时间约束条件的数据聚类,过程结构清晰,实施简单,执行效率高,分组结果准确。
附图说明
为了更加清楚地说明本公开实施例或者现有技术中的技术方案,下面将对本公开实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本公开实施例的这些附图获得其他的附图。
图1为本公开提供的告警聚类方法的步骤流程图;
图2为本公开一实施例提供的一种告警聚类装置结构示意图;
图3为本公开一实施例提供的一种电子设备结构示意图;
图4为本公开一实施例提供的告警日志采集及解析过程示意图;
图5为本公开一实施例中对告警对象按时间窗划分的示例;
图6为本公开一实施例构建的告警森林的示意图;
图7为本公开另一实施例中对告警树进行告警组划分的示例图。
具体实施方式
在本公开实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本公开实施例。本公开实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。本公开中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开提供的告警聚类方法的发明目的是实现基于网络及时间约束条件下的告警数据的聚类分组,告警数据的聚类分组是后续告警关联分析的基础,高效、清晰、扩展性强易管理的告警数据聚类分组方法能够更好的实现智能告警和网管的智能化。
本公开在基于告警模板对告警日志进行结构化生成结构化的告警数据(简称告警对象)时,基于对告警日志的分析处理为告警对象添加产生告警的网元拓扑元素属性,然后基于告警时间窗及告警对象的网元拓扑元素属性创建告警树,通过告警树反映产生告警的网元之间的拓扑关系,最终基于告警树及时间跨度约束条件对告警对象进行聚类分组实现对告警数据的硬化分,从而得到网络和时间约束条件下的若干个告警组。告警关联分析基于告警组进行。以下结合一具体实施例来详细说明本公开提供的告警数据的聚类方法详细过程。
图4为本公开一实施例提供的告警日志采集及解析过程示意图,在该实施例中,交换机设备上,通过rsyslog等日志采集工具从网络分析器SNA514的端口采集到告警消息后,将告警消息写入第一Kafka组件中名称为rsyslog的主题Topic中,上述过程即过程1在网络分析器部署完成后就启动了,一直运行以实时获取告警消息。其中,Kafka为一种高吞吐量的分布式发布订阅消息组件或系统。
例如,第一Kafka组件的rsyslog主题接收到设备上送的告警消息的示例如下:
{
"host":"10.99.209.237",
"message":"<172>Jan 1 23:19:02 2013 67-151 %%10DRVPLAT/4/SOFTCARDROP: PktType= ICMP , srcMAC=38ea-a713-13b0, Drop From Interface=XGE1/0/52at Stage=0, StageCnt=120518 TotalCnt=362142, Max Rate Interface=XGE1/0/52!!",
"timestamp":"2020-01-01T23:19:02+08:00"
}
在过程2中,通过网络分析器页面创建的告警数据采集任务通过日志分发log_distribute模块识别合法的设备告警消息。log_distribute消费第一Kafka组件中rsyslog主题中的告警消息,根据设备IP过滤合法设备发送的告警消息,并根据配置将过滤后的告警消息放入第二Kafka组件指定Topic中,例如根据厂商vendor、设备类型等将告警消息放入名称为XXX_switch的Topic中。
例如第二Kafka的XXX_switch主题接收的告警消息的示例如下:
{
"vendor":"XXX",
"host":"10.99.209.237",
"message":"<172>Jan 1 23:19:02 2013 67-151 %%10DRVPLAT/4/SOFTCARDROP: PktType= ICMP , srcMAC=38ea-a713-13b0, Drop From Interface=XGE1/0/52at Stage=0, StageCnt=120518 TotalCnt=362142, Max Rate Interface=XGE1/0/52!!",
"category":"security",
"subcategory":"switch",
"version":"默认",
"source_name":"XXX_switch",
"timestamp":"2020-01-01T23:19:02+08:00"
}
告警数据采集任务中,通过数据采集转换软件/组件,例如Logstash,按照预设的转换规则对第二Kafka中的告警消息进行过滤、解析等处理,得到结构化的告警数据(简称告警对象),然后将告警对象存储到全文搜索引擎(例如ElasticSearch/ES)、数据分发组件(例如Kafka)或文件当中,以供后续进行告警关联性分析等处理使用。
Logstash 是一种服务器端数据处理管道,能够从多个来源采集数据,转换数据,然后将数据发送到目标“存储库”中。经logstash解析后,将采集到的告警数据输出到Kafka/文件/ES的数据结构示例如下:
{
"msg":"PktType= ICMP , srcMAC=38ea-a713-13b0, Drop From Interface=XGE1/0/52 at Stage=63, StageCnt=723032 TotalCnt=10035753, Max RateInterface=XGE1/0/52 !!", //告警消息
"subcategory":"switch", //子类型
"pktType":"ICMP", //包类型
"@timestamp":"2020-05-27T01:11:53.452Z",//告警时间戳
"source_name":"XXX_switch", //告警源名称
"loghostname":"XXX",
"pri":172,
"module":"DRVPLAT",
"dropStatus":"keepDrop",
"stageCnt":723032,
"index_hour":"2020052709",
"maxRateInterface":"XGE1/0/52",
"severity":4,
"category":"security",
"logTypeDesc":"SOFTCAR DROP",
"parse_success":"true",
"srcMAC":"38ea-a713-13b0", //源MAC地址
"ldp_host_ip":"192.168.67.151", //告警设备地址
"index_day":"20200527",
"ldp_uuid":"86f9d82a-1da2-4209-a956-7b1401e304ae", //告警设备标识
"version":"默认",
"vendor":"XXX",
"@version":"1",
"severityLevel":"告警",
"totalCnt":10035753,
"index_minute":"202005270911",
"ldp_timestamp":"2020-05-27T01:11:53.452Z",
"logTime":"2013-01-29T13:06:34.000Z", //告警时间
"stage":63,
"dropFromInterface":"XGE1/0/52",
"alarmType":"cpuSpeedLimit"
}
特别的是,本公开在使用数据采集转换程序对告警数据进行结构化时,通过解析告警消息得到产生告警的网元(Network Element,EN)拓扑元素属性,网元拓扑元素属性用于针对某个设备的告警构建告警树,告警的网元拓扑元素属性中包括产生告警的网元及其上级网元的标识信息,例如假设网元设备当中产生告警的网元为Port端口,则网元拓扑元素属性中包括产生该告警的Port端口号,端口所属的Slot槽位号,端口所在Chassis机框号及该网元设备的Device设备号等。
以下是根据告警消息解析得到网元拓扑元素属性的示例:
告警消息1:%May 12 23:11:43:561 2020 12508 W DEV/2/BOARD_STATE_FAULT: -MDC=1; Board state changed to Fault on slot 2, type is LSXM1CGQ36TD1.
===> warn_type = BOARD_STATE_FAULT, NE = tuple (device=12508 W, chassis = 0, board =2))
告警消息2:%May 12 23:11:43:567 2020 12508 W IFNET/3/PHY_UPDOWN: -MDC= 1; Physical state on the interface Vlan-interface4094 changed to down.
===> warn_type = PHY_UPDOWN, NE = tuple (device=12508 W, int vlan = 4094)
告警消息3:Jun 16 22:16:17 80.0.0.13 Jun 16 22:15:36 2020 16X-B %% 10IFNET/4/LINK_UPDOWN: Line protocol state on the interface Ten- GigabitEthernet11/2/1 changed to down.
===> warn_type = LINK_UPDOWN, NE = tuple (device= 80.0.0.13, chassis= 0, slot=11, port= Ten-GigabitEthernet11/2/1 )
示例中,warn_type指告警类型,NE(Network Element)即网元拓扑元素属性,NE =tuple (device=12508 W, int vlan =4094)表示这个告警是从网元设备号为12508 W的网元设备中的vlan号为4094的vlan这个网元产生的。
在获得包括网元拓扑元素属性的告警对象后,需要执行以下步骤:
步骤S1.根据告警时间对告警对象进行排序,按预设的告警时间窗对告警对象进行划分,将所有产生于同一告警时间窗内的告警划分到同一窗口分组中;
例如按照告警时间对告警对象进行排序后将告警对象插入到告警队列中,然后对告警队列中的告警对象按照1分钟的告警时间窗进行划分,将产生在相同告警时间窗内的告警对象划分到同一个窗口分组中。为了保证告警时间窗划分结果的稳定性,相同的输入数据,应按照相同的时间窗进行划分,告警时间窗不应以执行时间点变化而变化。
参考前面的告警对象的示例,告警对象包括的属性包括但不限于以下信息的一项或多项的组合:告警时间、网元拓扑元素属性、告警类型、告警设备标识、告警级别、包类型等。
图5为本公开一实施例中对告警对象按时间窗划分的示例。该示例中以整点为起始时间点,每个告警时间窗设置为1分钟,4个告警被分别划分到两个窗口分组中。
步骤S2.以窗口分组为单位,基于窗口分组内的告警对象的网元拓扑元素属性分别构建属于各窗口分组的告警树,所述告警树以网元设备为根节点,以产生告警的网元作为网元实体节点,根据网元的层级所属关系进行构建。
当一个告警时间窗内包括由多个告警设备中的网元产生的告警对象时,在一个告警时间窗内将会构建出多棵告警树,多个告警树构成告警森林。
图6为本公开一实施例构建的告警森林的示意图。该示例中,假设当前告警时间窗内的告警warn1~warn9是由两个不同设备产生的,因此构造了两棵告警树。
以网元Port11/2/1.1为例,该网元产生了两个告警分别是warn5和warn8,warn5和warn8对应的告警对象的网元拓扑元素属性中都包括了所有上层网元的信息,示例如下:
(Device=80.0.0.13,chassis=0,slot=5,port=5/2/1,subinf=11/2/1.1)
本公开一实施例中,以链表数据结构将告警对象关联到告警树中的网元实体节点上,此外还为网元实体节点添加时间跨度属性,时间跨度属性的值为该网元实体节点上最早产生和最后产生的告警之间时间跨度范围。以图6中网元port=5/2/1对应的实体节点为例,其时间跨度属性揭示出该网元上最早产生的告警的时间为15分50秒,最晚产生的告警的告警时间为15分58秒,时间跨度为8秒。从告警树可以很容易看出,告警从属于哪个网元,网元之间的分层关系,从而可以进一步厘清告警之间的拓扑关联性。
步骤S3. 基于告警树中的网元拓扑关系及时间约束条件对窗口分组内的告警对象进行聚类,将告警对象划分为一个或多个告警组。
该步骤基于每一棵告警树,根据网元的归属层级关系和时间跨度属性,进行数据聚类,将告警数据划分为多个告警组。这个过程也称为硬化分,硬化分的步骤如下:
步骤S31.基于告警树,如果某网元对应的网元实体节点存在上层网元实体节点,则将该网元实体节点与其所属的上层网元实体节点划分到同一网元分组中,将告警森林中的告警对象划分为若干拓扑独立的告警集合;
针对告警时间窗内的每个网元,基于告警树对网元进行分组,将告警森林中的告警对象划分为若干拓扑独立的告警集合。一个网元分组对应的告警集合包括该网元分组中所有网元实体节点上的告警对象。
步骤S32.根据给定的时间约束条件,对每个告警集合中的告警对象进行聚类,得到一个或多个告警组。
上述拓扑独立的含义为:每个设备的告警形成一颗独立的告警树,一个告警树中的告警拓扑独立于其它告警树中的告警拓扑;同一设备的告警树中,如果某个网元实体节点存在上层实体节点,则该网元实体节点从属于其上层实体节点,将该网元实体节点及其上层网元实体节点划分到同一网元分组中,同一网元分组中包含的所有告警对象构成一个独立的告警集合。
图7为本公开另一实施例中对告警树进行告警组划分的示例图。该示例中,告警设备即Device=80.0.0.13产生了9个告警,分别为warn1~warn9。假设该示例中告警聚类即硬划分的条件为:在拓扑独立优先的情况下再根据时间约束条件对告警对象进行硬划分。slot为5的网元实体的下级网元实体上挂接的告警对象所构成的告警集合(warn4,warn5,warn8,warn9),其时间跨度属性值为15:50-15:58;Fan为1的网元实体挂接的稿件对象构成的集合(warn6,warn7),其时间跨度属性值为15:30-15:55,由于这两个告警集合在时间跨度上有重叠,因此根据聚类条件中的时间约束条件,将这两个告警集合被划分到一个告警分组中。
本公开通过上述告警数据聚类的方法,将告警划分为多个告警组,后续的规则匹配和故障处理等将基于各告警组展开。本公开提供的告警聚类的方法结构清晰、实施简单,很好地实现了基于拓扑相关性和时间约束条件的数据聚类,可实施性强。
应当认识到,本公开的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术,包括配置有计算机程序的非暂时性存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。此外,可按任何合适的顺序来执行本公开描述的过程的操作,除非本公开另外指示或以其他方式明显地与上下文矛盾。本公开描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本公开的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本公开所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本公开所述的方法和技术编程时,本公开还包括计算机本身。
以上所述仅为本公开的实施例而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种告警聚类方法,其特征在于,所述方法包括:
获取从网络设备采集的告警对象,所述告警对象为结构化的告警数据,其中包括网元拓扑元素属性,网元拓扑元素属性用于构建告警树,网元拓扑元素属性中包括产生告警的网元及其上级网元的标识信息;
根据告警时间对告警对象进行排序,按预设的告警时间窗将告警对象划分到多个窗口分组中;
以窗口分组为单位,基于窗口分组内的告警对象的网元拓扑元素属性构建告警树;所述告警树以网元设备为根节点,以产生告警的网元作为网元实体节点,根据网元的层级所属关系进行构建;
基于告警树中的网元拓扑关系及时间约束条件对窗口分组内的告警对象进行聚类,将告警对象划分为一个或多个告警组。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
以链表数据结构将告警对象关联到告警树中的网元实体节点上,所述网元实体节点还包括时间跨度属性,时间跨度属性的值为该网元实体节点上最早产生和最后产生的告警之间的时间跨度范围。
3.根据权利要求1所述的方法,其特征在于,
在一个窗口分组内,当多个网络设备产生告警时,该窗口分组内包括多个告警树,多个告警树构成告警森林。
4.根据权利要求1所述的方法,其特征在于,所述基于告警树中的网元拓扑关系及时间约束条件对窗口分组内的告警对象进行聚类的方法为:
当某网元对应的网元实体节点存在上层网元实体节点时,则将该网元实体节点与其所属的上层网元实体节点划分到同一网元分组中,将告警森林中的告警对象划分为若干拓扑独立的告警集合;
根据给定的时间约束条件,对每个告警集合中的告警对象进行聚类。
5.根据权利要求1所述的方法,其特征在于,所述告警对象的网元拓扑元素属性由数据采集组件基于告警日志模板解析所采集的告警消息获得。
6.一种告警聚类装置,其特征在于,该装置包括:
告警获取模块,用于获取从网络设备采集的告警对象,所述告警对象为结构化的告警数据,其中包括网元拓扑元素属性,网元拓扑元素属性用于构建告警树,网元拓扑元素属性中包括产生告警的网元及其上级网元的标识信息;
窗口分组模块,用于根据告警时间对告警对象进行排序,按预设的告警时间窗将告警对象划分到多个窗口分组中;
告警树构建模块,用于以窗口分组为单位,基于窗口分组内的告警对象的网元拓扑元素属性构建告警树;所述告警树以网元设备为根节点,以产生告警的网元作为网元实体节点,根据网元的层级所属关系进行构建;
告警聚类模块,用于基于告警树中的网元拓扑关系及时间约束条件对窗口分组内的告警对象进行聚类,将告警对象划分为一个或多个告警组。
7.根据权利要求6所述的装置,其特征在于,
告警树构建模块以链表数据结构将告警对象关联到告警树中的网元实体节点上,所述网元实体节点还包括时间跨度属性,时间跨度属性的值为该网元实体节点上最早产生和最后产生的告警之间的时间跨度范围。
8.根据权利要求6所述的装置,其特征在于,在一个窗口分组内,当多个网络设备产生告警时,该窗口分组内包括多个告警树,多个告警树构成告警森林;
所述告警聚类模块包括:
网元分组子模块,用于当某网元对应的网元实体节点存在上层网元实体节点时,则将该网元实体节点与其所属的上层网元实体节点划分到同一网元分组中,将告警森林中的告警对象划分为若干拓扑独立的告警集合;
集合聚类分组模块,用于根据给定的时间约束条件,对每个告警集合中的告警对象进行聚类。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储介质和通信总线,其中,处理器、通信接口、存储介质通过通信总线完成相互间的通信;
存储介质,用于存放计算机程序;
处理器,用于执行存储介质上所存放的计算机程序时,实施权利要求1-5任一项所述的方法步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序当被处理器执行时实施如权利要求1至5中任一项所述的方法步骤。
CN202110237469.7A 2021-03-04 2021-03-04 告警聚类方法、装置及存储介质 Pending CN112600719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110237469.7A CN112600719A (zh) 2021-03-04 2021-03-04 告警聚类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110237469.7A CN112600719A (zh) 2021-03-04 2021-03-04 告警聚类方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112600719A true CN112600719A (zh) 2021-04-02

Family

ID=75210332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110237469.7A Pending CN112600719A (zh) 2021-03-04 2021-03-04 告警聚类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112600719A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112968805A (zh) * 2021-05-19 2021-06-15 新华三技术有限公司 一种告警日志处理方法及装置
CN114500315A (zh) * 2021-12-31 2022-05-13 深圳云天励飞技术股份有限公司 设备状态监控方法、装置、计算机设备及存储介质
CN116467610A (zh) * 2023-03-13 2023-07-21 深圳市壹通道科技有限公司 基于5g消息的数据拓扑分析方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1992636A (zh) * 2005-12-29 2007-07-04 华为技术有限公司 一种处理告警信息的系统及方法
CN101345661A (zh) * 2007-07-09 2009-01-14 大唐移动通信设备有限公司 通信设备的故障诊断方法及装置
CN101656976A (zh) * 2008-08-19 2010-02-24 大唐移动通信设备有限公司 操作维护装置、网元设备及其告警的上报处理方法
CN109684181A (zh) * 2018-11-20 2019-04-26 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
US20190379678A1 (en) * 2018-06-12 2019-12-12 Secureworks Corp. Systems and Methods for Threat Discovery Across Distinct Organizations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1992636A (zh) * 2005-12-29 2007-07-04 华为技术有限公司 一种处理告警信息的系统及方法
CN101345661A (zh) * 2007-07-09 2009-01-14 大唐移动通信设备有限公司 通信设备的故障诊断方法及装置
CN101656976A (zh) * 2008-08-19 2010-02-24 大唐移动通信设备有限公司 操作维护装置、网元设备及其告警的上报处理方法
US20190379678A1 (en) * 2018-06-12 2019-12-12 Secureworks Corp. Systems and Methods for Threat Discovery Across Distinct Organizations
CN109684181A (zh) * 2018-11-20 2019-04-26 华为技术有限公司 告警根因分析方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112968805A (zh) * 2021-05-19 2021-06-15 新华三技术有限公司 一种告警日志处理方法及装置
CN112968805B (zh) * 2021-05-19 2021-08-06 新华三技术有限公司 一种告警日志处理方法及装置
CN114500315A (zh) * 2021-12-31 2022-05-13 深圳云天励飞技术股份有限公司 设备状态监控方法、装置、计算机设备及存储介质
CN116467610A (zh) * 2023-03-13 2023-07-21 深圳市壹通道科技有限公司 基于5g消息的数据拓扑分析方法、装置、设备及存储介质
CN116467610B (zh) * 2023-03-13 2023-10-10 深圳市壹通道科技有限公司 基于5g消息的数据拓扑分析方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111885012B (zh) 基于多种网络设备信息采集的网络态势感知方法及系统
Lou et al. Mining dependency in distributed systems through unstructured logs analysis
CN107577588B (zh) 一种海量日志数据智能运维系统
CN112600719A (zh) 告警聚类方法、装置及存储介质
US20190286510A1 (en) Automatic correlation of dynamic system events within computing devices
CN103001811B (zh) 故障定位方法和装置
CN110650038B (zh) 面向多类监管对象的安全事件日志采集处理方法和系统
US20140223555A1 (en) Method and system for improving security threats detection in communication networks
CN108200111B (zh) 资源配置信息更新方法、装置和资源接口设备
CN103942210A (zh) 海量日志信息的处理方法、装置与系统
US9210057B2 (en) Cross-cutting event correlation
CN111258798B (zh) 监控数据的故障定位方法、装置、计算机设备及存储介质
CN112769605A (zh) 一种异构多云的运维管理方法及混合云平台
CN106254137A (zh) 监管系统的告警根源分析系统及方法
WO2020143181A1 (zh) 数据存储方法、装置、计算机设备及存储介质
CN113505048A (zh) 基于应用系统画像的统一监控平台及实现方法
CN116132263B (zh) 告警解决方案推荐方法、装置、电子设备及存储介质
US20130326616A1 (en) Internet Monitoring and Alerting System
CN115514558A (zh) 一种入侵检测方法、装置、设备及介质
Hajamydeen et al. A detailed description on unsupervised heterogeneous anomaly based intrusion detection framework
CN114598506A (zh) 工控网络安全风险溯源方法、装置、电子设备及存储介质
RU180789U1 (ru) Устройство аудита информационной безопасности в автоматизированных системах
CN115309907B (zh) 告警日志关联方法及装置
CN116662127A (zh) 一种设备告警信息分类并预警的方法、系统、设备和介质
CN115396287A (zh) 一种故障分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210402

RJ01 Rejection of invention patent application after publication