CN115599830A - 一种数据关联关系的确定方法、装置、设备和介质 - Google Patents

一种数据关联关系的确定方法、装置、设备和介质 Download PDF

Info

Publication number
CN115599830A
CN115599830A CN202110722990.XA CN202110722990A CN115599830A CN 115599830 A CN115599830 A CN 115599830A CN 202110722990 A CN202110722990 A CN 202110722990A CN 115599830 A CN115599830 A CN 115599830A
Authority
CN
China
Prior art keywords
alarm data
alarm
occurrence time
belongs
fault occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110722990.XA
Other languages
English (en)
Inventor
余显
罗钊
陈晓帆
陈梓鸿
张穗辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202110722990.XA priority Critical patent/CN115599830A/zh
Publication of CN115599830A publication Critical patent/CN115599830A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Alarm Systems (AREA)

Abstract

本申请实施例公开了一种数据关联关系的确定方法、装置、设备和介质。依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组;从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系。存在关联关系的告警数据其故障发生时间必然相同或相近,因此基于选择的告警数据的故障发生时间序列的关联度,可以确定选择的告警数据所属告警数据组之间的关联关系。并且物理设备的拓扑关系以及告警数据中故障发生时间序列属于单一类型的低维数据,容易进行评估,有效的降低了告警数据关联分析的难度。

Description

一种数据关联关系的确定方法、装置、设备和介质
技术领域
本申请涉及数据分析技术领域,特别是涉及一种数据关联关系的确定方法、装置、设备和计算机可读存储介质。
背景技术
关联分析是指对网络全局的安全事件数据进行自动、连续分析。关联分析可以提高安全操作的可靠性、效率以及可视化程度。目前关于告警数据的关联分析技术方式主要包括基于聚类的告警关联分析和基于监督学习的告警关联分析。
基于聚类的告警关联分析是通过“距离”度量方法,将近距离告警数据聚集在一起,形成告警簇。告警数据包含有多种类型的信息,属于高维特征数据,而高维特征数据之间抽象的“距离”度量指标通常难以定义,操作难度高,无法满足线上告警数据动态关联的运维需求。
基于监督学习的告警关联分析方式需要花费大量的人力投入到告警数据的打标签环节,记录告警数据所属的事件类型,然后将同类型事件进行关联。这种方法是人为的将这些告警数据进行打标和关联,时间成本巨大,当告警数据的数据量较大时,人为标记的难度会非常高。
可见,如何降低告警数据关联分析的难度,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种数据关联关系的确定方法、装置、设备和计算机可读存储介质,可以降低告警数据关联分析的难度。
为解决上述技术问题,本申请实施例提供一种数据关联关系的确定方法,包括:
依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组;
从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系和/或基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系。
可选地,所述从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系包括:
若选择的第一告警数据和选择的第二告警数据归属于同一台物理设备或者所述第一告警数据所属的物理设备与所述第二告警数据所属的物理设备直接相连,则建立所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
可选地,所述从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系包括:
建立选择的告警数据所属告警数据组之间的关联关系;
若选择的第一告警数据和选择的第二告警数据不归属于同一台物理设备,并且所述第一告警数据所属的物理设备与所述第二告警数据所属的物理设备不直接相连,则删除所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
可选地,所述基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系包括:
提取选择的告警数据的故障发生时间序列;
按照设定的滑动窗口,从选择的第一告警数据中截取任意一个第一故障发生时间子序列,从选择的第二告警数据中截取任意一个第二故障发生时间子序列;
若所述第一告警数据中各所述第一故障发生时间子序列与所述第二告警数据中各所述第二故障发生时间子序列的距离值满足预设关联条件,则调整所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
可选地,所述若所述第一告警数据中各所述第一故障发生时间子序列与所述第二告警数据中各所述第二故障发生时间子序列的距离值满足预设关联条件,则调整所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系包括:
将各所述第一故障发生时间子序列与各所述第二故障发生时间子序列进行两两组合,确定出组合数;
计算任意一个组合中所述第一故障发生时间子序列与所述第二故障发生时间子序列的距离值;
若距离值小于预设阈值的个数与所述组合数的比值小于预设上限值或者距离值大于或等于所述预设阈值的个数与所述组合数的比值大于或等于预设下限值,则删除所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
可选地,还包括:
调整所述滑动窗口的取值,按照调整后的滑动窗口,执行所述从选择的第一告警数据中截取任意一个第一故障发生时间子序列,从选择的第二告警数据中截取任意一个第二故障发生时间子序列的步骤。
可选地,所述标识信息包括告警名称、告警内容、告警发生的设备地址、告警发生的设备名称和以及数据中心名称。
本申请实施例还提供了一种数据关联关系的确定装置,包括划分单元和确定单元;
所述划分单元,用于依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组;
所述确定单元,用于从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系和/或基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系。
可选地,所述确定单元用于若选择的第一告警数据和选择的第二告警数据归属于同一台物理设备或者所述第一告警数据所属的物理设备与所述第二告警数据所属的物理设备直接相连,则建立所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
可选地,所述确定单元包括建立子单元和删除子单元;
所述建立子单元,用于建立选择的告警数据所属告警数据组之间的关联关系;
所述删除子单元,用于若选择的第一告警数据和选择的第二告警数据不归属于同一台物理设备,并且所述第一告警数据所属的物理设备与所述第二告警数据所属的物理设备不直接相连,则删除所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
可选地,所述确定单元包括提取子单元、截取子单元和调整子单元;
所述提取子单元,用于提取选择的告警数据的故障发生时间序列;
所述截取子单元,用于按照设定的滑动窗口,从选择的第一告警数据中截取任意一个第一故障发生时间子序列,从选择的第二告警数据中截取任意一个第二故障发生时间子序列;
所述调整子单元,用于若所述第一告警数据中各所述第一故障发生时间子序列与所述第二告警数据中各所述第二故障发生时间子序列的距离值满足预设关联条件,则调整所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
可选地,所述调整子单元用于将各所述第一故障发生时间子序列与各所述第二故障发生时间子序列进行两两组合,确定出组合数;计算任意一个组合中所述第一故障发生时间子序列与所述第二故障发生时间子序列的距离值;若距离值小于预设阈值的个数与所述组合数的比值小于预设上限值或者距离值大于或等于所述预设阈值的个数与所述组合数的比值大于或等于预设下限值,则删除所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
可选地,还包括窗口调整单元;
所述窗口调整单元,用于调整所述滑动窗口的取值,按照调整后的滑动窗口,执行所述从选择的第一告警数据中截取任意一个第一故障发生时间子序列,从选择的第二告警数据中截取任意一个第二故障发生时间子序列的步骤。
可选地,所述标识信息包括告警名称、告警内容、告警发生的设备地址、告警发生的设备名称和以及数据中心名称。
本申请实施例还提供了一种数据关联关系的确定设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述任意一项所述数据关联关系的确定方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述数据关联关系的确定方法的步骤。
由上述技术方案可以看出,依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组;如果告警数据组存在关联关系,那不同告警数据组的告警数据必然分布在同一台物理设备或者是分布在直接相连的物理设备上,因此可以从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系。告警数据组中故障发生时间也是影响各告警数据组关联性的重要因素,存在关联关系的告警数据其故障发生时间必然相同或相近,因此基于选择的告警数据的故障发生时间序列的关联度,可以确定选择的告警数据所属告警数据组之间的关联关系。在该技术方案中,基于物理设备的拓扑关系以及告警数据中故障发生时间序列的分析,可以实现对告警数据的关联分析。并且物理设备的拓扑关系以及告警数据中故障发生时间序列属于单一类型的低维数据,容易进行评估,有效的降低了告警数据关联分析的难度。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种确定数据关联关系的场景示意图;
图2为本申请实施例提供的一种数据关联关系的确定方法的流程图;
图3为本申请实施例提供的一种数据关联关系的确定装置的结构示意图;
图4为本申请实施例提供的一种数据关联关系的确定设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
告警数据的关联性分析对于网络安全操作具有重要的参考价值。常规技术中采用人工标记或者基于聚类的方式对告警数据进行关联分析。人工标记的方式对告警数据进行关联性分析,耗费的时间成本巨大,当告警数据的数据量较大时,人为标记的难度会非常高。基于聚类的告警关联分析是通过“距离”度量方法,将近距离告警数据聚集在一起,形成告警簇。告警数据包含有多种类型的信息,属于高维特征数据,而高维特征数据之间抽象的“距离”度量指标通常难以定义,操作难度高。
因此,本申请实施例提供了一种数据关联关系的确定方法、装置、设备和计算机可读存储介质,依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组。多个告警数据组中告警数据所属物理设备的连接关系是影响多个告警数据组是否具有关联性的重要因素,多个告警数据组的故障发生时间序列之间的关联性也是影响多个告警数据组是否具有关联性的重要因素。因此,可以从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系和/或基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系。
如图1所示为本申请实施例提供的一种确定数据关联关系的场景示意图。标识信息可以用于区分不同类型的告警数据,依据多条告警数据的标识信息,可以将相同类型的告警数据作为一个告警数据组,图1中是以两个告警数据组为例,分别为告警数据组A和告警数据组B,假设告警数据1、告警数据2和告警数据3具有相同的标识信息,因此可以将告警数据1、告警数据2和告警数据3作为一个告警数据组,为了便于区分,可以将该告警数据组称作告警数据组A;同理,假设告警数据4和告警数据5具有相同的标识信息,因此可以将告警数据4和告警数据5作为一个告警数据组,为了便于区分,可以将该告警数据组称作告警数据组B。根据告警数据组A和告警数据组B所属物理设备的拓扑关系和/或基于告警数据组A和告警数据组B的故障发生时间序列的关联度,可以确定出告警数据组A和告警数据组B之间是否具有关联关系。在本申请实施例中,基于物理设备的拓扑关系以及告警数据中故障发生时间序列的分析,可以实现对告警数据的关联分析。并且物理设备的拓扑关系以及告警数据中故障发生时间序列属于单一类型的低维数据,容易进行评估,有效的降低了告警数据关联分析的难度。
接下来,详细介绍本申请实施例所提供的一种数据关联关系的确定方法。图2为本申请实施例提供的一种数据关联关系的确定方法的流程图,该方法包括:
S201:依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组。
标识信息可以用于区分不同类型的告警数据。在实际应用中,标识信息可以包括告警名称、告警内容、告警发生的设备地址、告警发生的设备名称和以及数据中心名称。其中,告警发生的设备可以是终端设备、交换机或路由器等。
以任意两条告警数据为例,当这两条告警数据具有相同的标识信息,则说明这两条告警数据属于相同类型的告警数据,在本申请实施例中,可以将相同类型的告警数据划分为同一告警数据组,从而可以得到多个告警数据组,也即将具有相同标识信息的告警数据划分为同一告警数据组,从而可以得到多个告警数据组。
S202:从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系和/或基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系。
如果告警数据组之间存在关联关系,那不同告警数据组的告警数据必然分布在同一台物理设备或者是分布在直接相连的物理设备上,因此可以从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系。
不同告警数据组中告警数据的故障发生时间也是影响告警数据组关联性的重要因素,存在关联关系的告警数据其故障发生时间必然相同或相近,因此基于选择的告警数据的故障发生时间序列的关联度,可以确定选择的告警数据所属告警数据组之间的关联关系。
在本申请实施例中,可以从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系。也可以基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系。
为了提升关联关系分析的准确性,可以将各告警数据组中告警数据所属物理设备的拓扑关系和各告警数据组中告警数据的故障发生时间相结合,从而确定出选择的告警数据所属告警数据组之间的关联关系。在实际应用中,可以先从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系;在此基础上,基于任意两类具有关联关系的告警数据组中告警数据的故障发生时间序列的关联度,调整选择的告警数据所属告警数据组之间的关联关系。
也可以先基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系;在此基础上,从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,调整选择的告警数据所属告警数据组之间的关联关系。
由上述技术方案可以看出,依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组;如果告警数据组存在关联关系,那不同告警数据组的告警数据必然分布在同一台物理设备或者是分布在直接相连的物理设备上,因此可以从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系。告警数据组中故障发生时间也是影响各告警数据组关联性的重要因素,存在关联关系的告警数据其故障发生时间必然相同或相近,因此基于选择的告警数据的故障发生时间序列的关联度,可以确定选择的告警数据所属告警数据组之间的关联关系。在该技术方案中,基于物理设备的拓扑关系以及告警数据中故障发生时间序列的分析,可以实现对告警数据的关联分析。并且物理设备的拓扑关系以及告警数据中故障发生时间序列属于单一类型的低维数据,容易进行评估,有效的降低了告警数据关联分析的难度。
在本申请实施例中,从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系的实现方式可以有多种。
一种方式可以将各告警数据组先独立设置,然后判断所有告警数据组中的任意两个告警数据组是否归属于同一台物理设备或者任意两个告警数据组所属的物理设备是否直接相连。
告警数据组的个数往往有多个,任意两个告警数据组之间的关联关系的确定方式相同,因此在本申请实施例中,均以任意两个告警数据组为例,对这两个告警数据组之间的关联关系的确定方式展开介绍。
以选择的第一告警数据和选择的第二告警数据为例,第一告警数据和第二告警数据为所有告警数据组中的任意两个告警数据组中各自对应的告警数据。
若选择的第一告警数据和选择的第二告警数据归属于同一台物理设备或者第一告警数据所属的物理设备与第二告警数据所属的物理设备直接相连,则建立第一告警数据所属告警数据组和第二告警数据所属告警数据组的关联关系。
另一种方式可以先在任意两个告警数据组之间建立关联关系,再基于任意两个告警数据组中告警数据所属物理设备的拓扑关系,调整选择的告警数据所属告警数据组之间的关联关系。
以第一告警数据和第二告警数据为例,若选择的第一告警数据和选择的第二告警数据不归属于同一台物理设备,并且第一告警数据所属的物理设备与第二告警数据所属的物理设备不直接相连,则说明第一告警数据与第二告警数据的关联性非常低,此时可以删除第一告警数据所属告警数据组和第二告警数据所属告警数据组的关联关系。
参照第一告警数据和第二告警数据所属物理设备的拓扑关系的分析方式,可以确定出任意两个告警数据组之间的关联关系。基于告警数据组所属物理设备的拓扑关系的分析,可以简单快速的确定出具有关联关系的多个告警数据组。
各告警数据组的故障发生时间序列之间的关联性是影响告警数据组是否具有关联性的重要因素。在本申请实施例中,可以通过计算选择的告警数据的故障发生时间序列的距离值来评估两个告警数据组的关联度。
在实际应用中,可以提取选择的告警数据的故障发生时间序列。
故障发生时间序列中包含的时间值取决于告警数据组中故障发生的次数,每发生一次故障对应一个故障发生时间。
故障发生时间序列指的是按照时间先后顺序将告警数据组中故障发生时间进行排序。
本申请实施例中,可以将选择的告警数据的故障发生时间序列进行比较。也可以在从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系的基础上,将具有关联关系的选择的告警数据的故障发生时间序列进行比较。
为了便于后续介绍,均以在从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系的基础上将具有关联关系的选择的告警数据的故障发生时间序列进行比较为例展开说明。
为了便于将两个告警数据组的故障发生时间序列进行比较,可以按照设定的滑动窗口,从选择的第一告警数据中截取任意一个第一故障发生时间子序列,从选择的第二告警数据中截取任意一个第二故障发生时间子序列,判断第一告警数据中各第一故障发生时间子序列与第二告警数据中各第二故障发生时间子序列的距离值是否满足预设关联条件。
滑动窗口的取值可以根据实际需求设定,在此不做限定。例如,可以将滑动窗口的取值设置为1,表明从节点数据的故障发生时间序列中截取一个时间值作为故障发生时间子序列。
若第一告警数据中各第一故障发生时间子序列与第二告警数据中各第二故障发生时间子序列的距离值满足预设关联条件,则可以调整第一告警数据所属告警数据组和第二告警数据所属告警数据组的关联关系。
考虑到每个告警数据组对应的故障发生时间子序列往往有多个,为了计算第一告警数据中各第一故障发生时间子序列与第二告警数据中各第二故障发生时间子序列的距离值,可以将第一告警数据和第二告警数据中的任意两个故障发生时间子序列进行比较。
在具体实现中,可以将各第一故障发生时间子序列与各第二故障发生时间子序列进行两两组合,确定出组合数;计算任意一个组合中第一故障发生时间子序列与第二故障发生时间子序列的距离值。
在实际应用中,可以将第一故障发生时间子序列与第二故障发生时间子序列的差值作为距离值。
若距离值小于预设阈值的个数与组合数的比值小于预设上限值或者距离值大于或等于预设阈值的个数与组合数的比值大于或等于预设下限值,则说明第一告警数据和第二告警数据的关联性较低,此时可以删除第一告警数据所属告警数据组和第二告警数据所属告警数据组的关联关系。
预设阈值、预设上限值和预设下限值的取值均可以根据实际需求设置,如预设阈值可以设置为1小时,预设上限值可以设置为80%,预设下限值可以设置为20%。
举例说明,假设节点数据A的故障发生时间序列为{Am,Am+1,Am+2,...,Am+k},节点数据B的故障发生时间序列为{Bn,Bn+1,Bn+2,...,Bn+q}。滑动窗口设置为1,那么统计这两个序列中任意两个故障发生时间子序列即Ax和By之间的距离值,其中x∈[m,m+k],y∈[n,n+q],如果|Ax-By|低于预设阈值,那么可认为这两个故障发生时间子序列对应的两次故障相邻发生。
根据任意两个故障发生时间子序列可以计算得到一个距离值,距离值小于预设阈值的个数越多,说明两个告警数据组中故障发生的时间越接近,这两个告警数据组的关联性越高。
假设,告警数据组A包含的故障发生时间子序列为5个,告警数据组B包含的故障发生时间子序列为2个,可以得到组合数为10。告警数据组A的任意一个故障发生时间子序列与告警数据组B的任意一个故障发生时间子序列的距离值小于预设阈值的个数为7,此时个数与组合数的比值为7/10,其小于预设上限值80%,可以确定告警数据组A和告警数据组B不具有关联关系。同理,距离值大于或等于预设阈值的个数为3个,此时个数与组合数的比值为3/10,其大于预设下限值20%,可以确定告警数据组A和告警数据组B不具有关联关系。
通过依据滑动窗口截取故障发生时间子序列,将告警数据组中告警数据的故障发生时间子序列进行比较,可以实现对选择的告警数据的故障发生时间序列的关联度的评估,从而识别出选择的告警数据所属告警数据组是否具有关联关系。
在本申请实施例中,可以根据关联关系分析的准确性要求,调整滑动窗口的取值。在调整滑动窗口的取值之后,按照调整后的滑动窗口,执行从选择的第一告警数据中截取任意一个第一故障发生时间子序列,从选择的第二告警数据中截取任意一个第二故障发生时间子序列的步骤。
在实际应用中,为了提升关联关系分析的准确性,可以调高滑动窗口的取值。假设原本滑动窗口的取值为1,可以将滑动窗口的取值调整为2。
举例说明,假设告警数据组A的故障发生时间序列为{Am,Am+1,Am+2,...,Am+k},告警数据组B的故障发生时间序列为{Bn,Bn+1,Bn+2,...,Bn+q}。滑动窗口设置为2,则统计这两个序列中任意两个故障发生时间子序列即{Ax,Ax+1}和{By,By+1}之间的距离值,其中x∈[m,m+k-1],y∈[n,n+q-1]。对于{Ax,Ax+1}和{By,By+1}之间的距离值的计算方式不做限定,例如可以按照欧几里得距离计算公式计算。
通过调高滑动窗口的取值,可以将第一告警数据中连续的多个故障发生时间与第二告警数据中连续的多个故障发生时间进行比较,从而更加准确的评估第一告警数据和第二告警数据的故障发生时间的相关性,提高了各类节点数据的关联关系分析的准确性。
图3为本申请实施例提供的一种数据关联关系的确定装置的结构示意图,包括划分单元31和确定单元32;
划分单元31,用于依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组;
确定单元32,用于从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系和/或基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系。
可选地,确定单元用于若选择的第一告警数据和选择的第二告警数据归属于同一台物理设备或者第一告警数据所属的物理设备与第二告警数据所属的物理设备直接相连,则建立第一告警数据所属告警数据组和第二告警数据所属告警数据组的关联关系所属告警数据组。
可选地,确定单元包括建立子单元和删除子单元;
建立子单元,用于建立选择的告警数据所属告警数据组之间的关联关系;
删除子单元,用于若选择的第一告警数据和选择的第二告警数据不归属于同一台物理设备,并且第一告警数据所属的物理设备与第二告警数据所属的物理设备不直接相连,则删除第一告警数据所属告警数据组和第二告警数据所属告警数据组的关联关系。
可选地,确定单元包括提取子单元、截取子单元和调整子单元;
提取子单元,用于提取选择的告警数据的故障发生时间序列;
截取子单元,用于按照设定的滑动窗口,从选择的第一告警数据中截取任意一个第一故障发生时间子序列,从选择的第二告警数据中截取任意一个第二故障发生时间子序列;
调整子单元,用于若第一告警数据中各第一故障发生时间子序列与第二告警数据中各第二故障发生时间子序列的距离值满足预设关联条件,则调整第一告警数据所属告警数据组和第二告警数据所属告警数据组的关联关系。
可选地,调整子单元用于将各第一故障发生时间子序列与各第二故障发生时间子序列进行两两组合,确定出组合数;计算任意一个组合中第一故障发生时间子序列与第二故障发生时间子序列的距离值;若距离值小于预设阈值的个数与组合数的比值小于预设上限值或者距离值大于或等于预设阈值的个数与组合数的比值大于或等于预设下限值,则删除第一告警数据所属告警数据组和第二告警数据所属告警数据组的关联关系。
可选地,还包括窗口调整单元;
窗口调整单元,用于调整滑动窗口的取值,按照调整后的滑动窗口,执行从选择的第一告警数据中截取任意一个第一故障发生时间子序列,从选择的第二告警数据中截取任意一个第二故障发生时间子序列的步骤。
可选地,标识信息包括告警名称、告警内容、告警发生的设备地址、告警发生的设备名称和以及数据中心名称。
图3所对应实施例中特征的说明可以参见图2所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组;如果告警数据组存在关联关系,那不同告警数据组的告警数据必然分布在同一台物理设备或者是分布在直接相连的物理设备上,因此可以从多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系。告警数据组中故障发生时间也是影响各告警数据组关联性的重要因素,存在关联关系的告警数据其故障发生时间必然相同或相近,因此基于选择的告警数据的故障发生时间序列的关联度,可以确定选择的告警数据所属告警数据组之间的关联关系。在该技术方案中,基于物理设备的拓扑关系以及告警数据中故障发生时间序列的分析,可以实现对告警数据的关联分析。并且物理设备的拓扑关系以及告警数据中故障发生时间序列属于单一类型的低维数据,容易进行评估,有效的降低了告警数据关联分析的难度。
图4为本申请实施例提供的一种数据关联关系的确定设备40的结构示意图,包括:
存储器41,用于存储计算机程序;
处理器42,用于执行计算机程序以实现如上述任意一项数据关联关系的确定方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任意一项数据关联关系的确定方法的步骤。
以上对本申请实施例所提供的一种数据关联关系的确定方法、装置、设备和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (10)

1.一种数据关联关系的确定方法,其特征在于,包括:
依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组;
从所述多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系和/或基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系。
2.根据权利要求1所述的数据关联关系的确定方法,其特征在于,所述根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系包括:
若选择的第一告警数据和选择的第二告警数据归属于同一台物理设备或者所述第一告警数据所属的物理设备与所述第二告警数据所属的物理设备直接相连,则建立所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
3.根据权利要求1所述的数据关联关系的确定方法,其特征在于,所述根据选择的告警数据所属物理设备的拓扑关系,确定选择的告警数据所属告警数据组之间的关联关系包括:
建立选择的告警数据所属告警数据组之间的关联关系;
若选择的第一告警数据和选择的第二告警数据不归属于同一台物理设备,并且所述第一告警数据所属的物理设备与所述第二告警数据所属的物理设备不直接相连,则删除所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
4.根据权利要求1所述的数据关联关系的确定方法,其特征在于,所述基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系包括:
提取选择的告警数据的故障发生时间序列;
按照设定的滑动窗口,从选择的第一告警数据中截取任意一个第一故障发生时间子序列,从选择的第二告警数据中截取任意一个第二故障发生时间子序列;
若所述第一告警数据中各所述第一故障发生时间子序列与所述第二告警数据中各所述第二故障发生时间子序列的距离值满足预设关联条件,则调整所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
5.根据权利要求4所述的数据关联关系的确定方法,其特征在于,所述若所述第一告警数据中各所述第一故障发生时间子序列与所述第二告警数据中各所述第二故障发生时间子序列的距离值满足预设关联条件,则调整所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系包括:
将各所述第一故障发生时间子序列与各所述第二故障发生时间子序列进行两两组合,确定出组合数;
计算任意一个组合中所述第一故障发生时间子序列与所述第二故障发生时间子序列的距离值;
若距离值小于预设阈值的个数与所述组合数的比值小于预设上限值或者距离值大于或等于所述预设阈值的个数与所述组合数的比值大于或等于预设下限值,则删除所述第一告警数据所属告警数据组和所述第二告警数据所属告警数据组的关联关系。
6.根据权利要求4所述的数据关联关系的确定方法,其特征在于,还包括:
调整所述滑动窗口的取值,按照调整后的滑动窗口,执行所述从选择的第一告警数据中截取任意一个第一故障发生时间子序列,从选择的第二告警数据中截取任意一个第二故障发生时间子序列的步骤。
7.根据权利要求1至6任意一项所述的数据关联关系的确定方法,其特征在于,所述标识信息包括告警名称、告警内容、告警发生的设备地址、告警发生的设备名称和以及数据中心名称。
8.一种数据关联关系的确定装置,其特征在于,包括划分单元和确定单元;
所述划分单元,用于依据多条告警数据的标识信息,将相同类型的告警数据划分为同一告警数据组,得到多个告警数据组;
所述确定单元,用于从所述多个告警数据组中选择属于不同告警数据组的告警数据,根据选择的告警数据所属物理设备的拓扑关系和/或基于选择的告警数据的故障发生时间序列的关联度,确定选择的告警数据所属告警数据组之间的关联关系。
9.一种数据关联关系的确定设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任意一项所述数据关联关系的确定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述数据关联关系的确定方法的步骤。
CN202110722990.XA 2021-06-28 2021-06-28 一种数据关联关系的确定方法、装置、设备和介质 Pending CN115599830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110722990.XA CN115599830A (zh) 2021-06-28 2021-06-28 一种数据关联关系的确定方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110722990.XA CN115599830A (zh) 2021-06-28 2021-06-28 一种数据关联关系的确定方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN115599830A true CN115599830A (zh) 2023-01-13

Family

ID=84840512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110722990.XA Pending CN115599830A (zh) 2021-06-28 2021-06-28 一种数据关联关系的确定方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115599830A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116016121A (zh) * 2023-03-24 2023-04-25 卡奥斯工业智能研究院(青岛)有限公司 告警数据的关联数据确定方法、装置、设备及存储介质
CN116633608A (zh) * 2023-05-16 2023-08-22 江苏信创网安数据科技有限公司 一种网络安全的风险预测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116016121A (zh) * 2023-03-24 2023-04-25 卡奥斯工业智能研究院(青岛)有限公司 告警数据的关联数据确定方法、装置、设备及存储介质
CN116633608A (zh) * 2023-05-16 2023-08-22 江苏信创网安数据科技有限公司 一种网络安全的风险预测方法及系统
CN116633608B (zh) * 2023-05-16 2024-01-30 江苏信创网安数据科技有限公司 一种网络安全的风险预测方法及系统

Similar Documents

Publication Publication Date Title
CN108322347B (zh) 数据检测方法、装置、检测服务器及存储介质
CN110609759B (zh) 一种故障根因分析的方法及装置
CN109587008B (zh) 检测异常流量数据的方法、装置及存储介质
CN115599830A (zh) 一种数据关联关系的确定方法、装置、设备和介质
US20080306715A1 (en) Detecting Method Over Network Intrusion
CN112104495B (zh) 一种基于网络拓扑的系统故障根因定位方法
US9865101B2 (en) Methods for detecting one or more aircraft anomalies and devices thereof
CN110430224B (zh) 一种基于随机块模型的通信网络异常行为检测方法
CN111176953B (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN111191720B (zh) 一种业务场景的识别方法、装置及电子设备
CN109726737B (zh) 基于轨迹的异常行为检测方法及装置
CN109995611B (zh) 流量分类模型建立及流量分类方法、装置、设备和服务器
CN113645182B (zh) 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法
CN113723452A (zh) 一种基于kpi聚类的大规模异常检测系统
CN114679327B (zh) 网络攻击等级确定方法、装置、计算机设备和存储介质
CN113204914A (zh) 一种基于多架次飞行数据表征建模的飞行数据异常判读方法
CN111614520B (zh) 一种基于机器学习算法的idc流量数据预测方法及装置
CN112612679A (zh) 系统运行状态监控方法、装置、计算机设备和存储介质
CN117421188A (zh) 告警定级方法、装置、设备及可读存储介质
CN106339293B (zh) 一种基于签名的日志事件提取方法
CN112333291A (zh) 一种文件防重传方法
Stefanidou-Voziki et al. Feature selection and optimization of a ML fault location algorithm for low voltage grids
WO2018122889A1 (ja) 異常検出方法、システムおよびプログラム
CN112737120B (zh) 区域电网控制报告的生成方法、装置和计算机设备
CN108737399B (zh) 一种基于角标随机读取的Snort报警数据聚合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination