CN110391936B - 一种基于时序性告警的聚类方法 - Google Patents

一种基于时序性告警的聚类方法 Download PDF

Info

Publication number
CN110391936B
CN110391936B CN201910677470.4A CN201910677470A CN110391936B CN 110391936 B CN110391936 B CN 110391936B CN 201910677470 A CN201910677470 A CN 201910677470A CN 110391936 B CN110391936 B CN 110391936B
Authority
CN
China
Prior art keywords
alarm
site
time
cluster
alarms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910677470.4A
Other languages
English (en)
Other versions
CN110391936A (zh
Inventor
熊荫乔
陈岸
邓甜甜
何贤浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University
Original Assignee
Changsha University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University filed Critical Changsha University
Priority to CN201910677470.4A priority Critical patent/CN110391936B/zh
Publication of CN110391936A publication Critical patent/CN110391936A/zh
Application granted granted Critical
Publication of CN110391936B publication Critical patent/CN110391936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0622Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Abstract

本发明公开了一种基于时序性告警的聚类方法,主要解决现有技术中云环境下大规模集群设备所产生海量时序性告警数据的聚类问题。本发明利用设定时间窗口内两两告警之间时间差的关系,构造告警之间新的关系矩阵,再利用K‑means算法对关系矩阵中的列向量进行聚类,得到告警的聚类结果。通过上述方案,本发明达到了运维人员通常利用这些告警数据的聚类结果来准确定位、排查、修复故障和错误,维持系统的正常运行的目的,在云服务提供商运维领域具有很高的实用价值和推广价值。

Description

一种基于时序性告警的聚类方法
技术领域
本发明涉及云计算技术领域,尤其是一种基于时序性告警的聚类方法。
背景技术
随着云计算的快速发展,使得云环境中的设备越来越多,设备之间的拓扑结构也越来越复杂,对设备的故障诊断和排查工作的难度也随之提高。例如:一个告警的发生往往导致一系列告警的出现,不断迭代导致系统出现海量告警,且不同原因产生的告警交织在一起,这些告警表面看来杂乱无章,使得维护人员在分析某一告警时,会受到其它大量与之无关的告警信息影响,从而无法准确地进行故障的定位、排查与修复。
在大型网站在恢复故障过程中,故障的定位和排查大约占据了总时间的93%。由此可见,维护人员必须对网络设备产生的告警信息进行分析并对告警进行有效的聚类,才能实现高效的运维服务。云规模的扩大以及用户需求的增加,致使告警排查工作需要满足时效性,处理得不及时与不恰当,会直接影响用户体验并给企业带来无法估量的损失。
目前,现有技术中已经有许多方式对告警数据进行挖掘。在1993年ACM SIGMOD会议上提出了一种基于关联规则挖掘的Apriori算法,该算法在给定置信度的条件下,找到满足支持度限制下的所有关联规则。Han J,Pei J,YinY提出了一种频繁模式挖掘,基于FP-Tree的数据结构使得数据能够压缩成树形结构并减少访问数据库的次数。HatonenK.Knowledge采用的是基于WINEPI算法的序列模式挖掘,该算法利用滑动窗口,挖掘告警模式,计算频繁情节,最后从情节中找到关联规则。Ning Ping,CuiYun负责分析入侵警报的技术和工具则抽象语义关联关系,聚合相似的告警,进而判断多个告警是否由同一原因产生。上述方法都是采用了基于关联规则、频繁模式的挖掘,这些挖掘算法依赖于高支持度、高置信度条件,并未考虑到在时间窗口内,各类告警发生的时间上存在新的关系。而Ning Ping,CuiYun负责分析入侵警报的技术和工具的方法需要预先定义好语义关系库,不具备时效性。
因此,急需要提出一种简化运维过程的复杂性、以缩小真实故障的排查范围的新型的聚类挖掘方法。
发明内容
针对上述问题,本发明的目的在于提供一种基于时序性告警的聚类方法,本发明采用的技术方案如下:
一种基于时序性告警的聚类方法,包括以下步骤:
步骤S1,采集原始时序告警数据,解析后存储在告警数据库内;
步骤S2,对告警数据库内的告警数据依据不同的站点进行分类;
步骤S3,利用key-value的映射关系获取对应的告警数据集;
步骤S4,预设定义告警信息和告警聚类;
步骤S5,定义告警间的关系,求得告警数据集内i类的告警与其自身为中心的时间窗口内j类告警时间差的绝对值之和,并标记为Δij;所述i、j均为大于等于1的自然数;
步骤S6,利用Δij构建构成告警种类m的Δm×m矩阵;所述m为大于等于1的自然数;
步骤S7,求得Δm×m矩阵的列向量间的协方差,并形成协方差矩阵;
步骤S8,预设定义i类的告警与j类告警之间的距离;
步骤S9,建立聚类分析模型,并获得告警聚类输出结果。
进一步地,所述步骤S1中,采集和存储原始时序告警数据,解析后存储在告警数据库内,包括以下步骤:
步骤S11,利用EMS设备探测任一云服务的设备和线路的故障,并产生告警信息;
步骤S12,EMS设备采用Syslog或SNMP方式发送告警信息到故障管理FM平台探针,并解析获得告警信息对应的告警名、告警发生时间、告警发生地点和告警摘要;
步骤S13,将所述告警信息集中存储在告警数据库中。
进一步地,所述步骤S2中,对告警数据库内的告警数据依据不同的站点进行分类,包括以下步骤:
步骤S21,以每个站点的名称site作为key,获取不同站点内所有的告警信息,并组成一个告警数据集<D1,D2,...,Dn>;
步骤S22,根据告警数据集<D1,D2,...,Dn>形成key-value的映射关系,其表达式为:
Hsite=<D1,D2,...,Dn> (1)。
进一步地,所述步骤S4中,预设定义告警信息和告警聚类,包括:预设定义的告警信息包括定义告警数据、告警数据D、告警聚类Ω、时间窗口W;
预设定义告警数据D为<alarm,site,T>;所述alarm表示告警类型,所述site表示告警的站点;所述T表示发生告警的时间;
预设定义的告警聚类Ω={Ω12,...Ωk};所述k为大于等于1的自然数;所述Ωk表示告警聚类Ω内的第k簇告警数据;所述告警聚类Ω内第i告警的告警数据为{alarmi1,alarmi2....alarmik};
预设定义的告警数据<alarm,site,T>的时间窗口W的表达式为:
W=<Twin,<alarm',site,T>>
所述alarm'表示发生告警的时间T的中心,Twin表示时间跨度的时间区间;
所述告警数据<alarm,site,T>的告警起始的时间点为Tstart;所述告警数据<alarm,site,T>的告警结束时间点为Tend;所述告警数据<alarm,site,T>的时间窗为α;告警数据<alarm,site,T>对应的大小为n。
进一步地,所述步骤S6中,利用Δij构建构成告警种类m的Δm×m矩阵,其表达式为:
Figure GDA0003416894310000041
进一步地,所述步骤S7中,求得Δm×m矩阵的列向量间的协方差,并形成协方差矩阵,包括以下步骤:
步骤S71,根据公式(2)求得Δm×m矩阵的列向量间的协方差,并形成协方差矩阵σ,其表达式为:
Figure GDA0003416894310000042
其中,c1,...cm表示Δm×m矩阵中的m列向量;
步骤S72,任一协方差的表达式为:
Figure GDA0003416894310000043
其中,Xi表示列向量X中第i维度的值,
Figure GDA0003416894310000044
表示X列向量内所有维度值的平均值,Yi表示列向量Y中第i维度的值,
Figure GDA0003416894310000045
表示Y列向量内所有维度值的平均值。
进一步地,所述步骤S8中,预设定义i类的告警与j类告警之间的距离,包括以下步骤:
根据公式(3)求得Δm×m矩阵中第i个列向量与第j个列向量的相关程度σij;并利用相关程度σij求得距离d;其表达式为:
d=|σi1j1|+...+|σimjm|
所述σi1表示协方差矩阵σ中的第i行第1列的元素,σj1表示协方差矩阵σ中的第j行第1列的元素,σim表示协方差矩阵σ中的第i行第m列的元素,σjm表示协方差矩阵σ中的第j行第m列的元素。
进一步地,所述步骤S9中,建立聚类分析模型,包括以下步骤:
步骤S91,将协方差矩阵σ中m'个非零列向量划分为样本点,并将任一零的向量划分为一簇;由所述m'个非零列向量组成一个给定样本集D={x1,...,xm'};
步骤S92,采用K-Means算法对所述给定样本集D进行聚类,以获得聚类结果C={C1,,...,CK},所述K为小于等于m'的自然数;
步骤S93,求得C={C1,,...,CK}的最小化平方误差,其表达式为:
Figure GDA0003416894310000051
Figure GDA0003416894310000052
其中,所述x表示Ci中的一个向量,所述μi表示簇Ci的均值向量。
更进一步地,所述步骤S92中,还包括求得最佳的聚类数K
步骤S921,建立构造的代价函数,其表达式为:
Figure GDA0003416894310000053
其中,所述μi'表示第i簇的中心,μ表示所有样本点的中心,p表示簇中的点;
步骤S922,根据公式(7)求得最佳的聚类数K,其表达式为:
Figure GDA0003416894310000054
进一步地,所述步骤S9中,获得告警聚类输出结果,包括以下步骤:
利用R(site,k)={C1,C2,...,Ck}记录站点site所划分的k个簇集合,查询F(site,k)最小的k以及对应的R(site,k)便可获得站点最佳的聚类数以及聚类结果。
与现有技术相比,本发明具有以下有益效果:
(1)本发明通过对告警数据库内的告警数据依据不同的站点进行分类,只考虑站点内告警之间的关系,不需要考虑站点之间的关系,当收集到告警后,需要进行依据不同的站点进行分类,为输出直观告警聚类提供基础。另外,本发明利用key-value的映射关系获取对应的告警数据集,以便于快速的获取某一站点下的所有告警信息。
(2)本发明预设定义告警信息和告警聚类,其作为算法输入所设计的数据结构,主要为及后续构造告警之间的关系和矩阵提供帮助。根据工程经验和K-means算法的使用,首先定义好聚类结果数据结构,以便算法的完成。
(3)本发明通过定义告警间的关系,并求得Δij,该矩阵是依据时间窗口的定义计算得来,在时序上可以看出不同类型告警之间的直接时差关系。另外,本发明利用Δij构建构成告警种类m的Δm×m矩阵,求得Δm×m矩阵的列向量间的协方差,并形成协方差矩阵,Δm×m矩阵中的每一列都描述了该列所对应的告警类型和其他所以告警类型之间的时差关系,因此,体现出了该类告警和其他类告警之间的总体关系,而协方差则可体现出Δm×m矩阵中列之间的关系,如果某类告警和其他所有类告警之间的时差关系和另某类告警与其他所有类告警之间的关系相似,则可在协方差矩阵中体现出来,而这两类告警则不然存在关系。
(4)本发明通过预设定义i类的告警与j类告警之间的距离,为协方差矩阵内列向量之间的欧几里得距离,我们可以利用该距离判断两个告警类之间的关联程度,并用在后续的K-means算法中。
(5)本发明建立聚类分析模型,并获得告警聚类输出结果,云计算环境下,设备种类繁多,数量较大,因此产生的告警类型多,数量大,往往有些告警体现的仅仅是整体系统深层次故障的一种表象,因此在时序上将告警类做一个聚类划分,聚合在一起的告警类则可作为同一种故障现象对待,这将使得运维人员分析故障定位故障根源的效率大大提高。
综上所述,本发明具有逻辑简便、故障查找效率高等优点,在云计算技术领域具有很高的实用价值和推广价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需使用的附图作简单介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对保护范围的限定,对于本领域技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的框架图。
图2为本发明的时间差绝对值之和Δij的计算示意图。
图3为本发明的告警数据示例图。
图4为本发明的站点分类流程图。
图5为本发明的数据预处理流程图。
图6为本发明的聚类分析流程图。
图7为本发明的原始时序告警数据量与站点种类数关系图。
图8为本发明的时间窗口系数与聚类率关系图。
具体实施方式
为使本申请的目的、技术方案和优点更为清楚,下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1至图8所示,本实施例提供了一种基于时序性告警的聚类方法,具体包括以下步骤:
第一步,采集原始时序告警数据,解析后存储在告警数据库内;具体来说,云服务提供商网络中的设备,如基站、核心网服务器、传输网线路等等,都通过设备厂商的EMS设备管理。EMS探测到设备或线路故障后,会产生相应告警。所有EMS设备通过Syslog或者SNMP方式发送告警到FM(Fault Managem-ent)平台探针,FM探针统一采集告警,并解析告警内容,对告警名、告警发生时间、告警发生地点、告警摘要等信息进行标准化处理。之后,探针将告警送到集中的告警数据库存储。
第二步,对告警数据库内的告警数据依据不同的站点进行分类,具体包括以下步骤:
包括以下步骤:
(21)以每个站点的名称site作为key,获取不同站点内所有的告警信息,并组成一个告警数据集<D1,D2,...,Dn>;
(22)根据告警数据集<D1,D2,...,Dn>形成key-value的映射关系,其表达式为:
Hsite=<D1,D2,...,Dn> (1)。
采用key-value的映射关系,在对不同站点内的告警数据进行聚类时,可以直接通过站点的名称取得该站点对应的告警数据集,避免多次访问数据库时的开销。
第三步,利用key-value的映射关系获取对应的告警数据集;针对需要研究的站点,利用key-value的映射关系获取对应的告警数据集。利用需要研究的数据集,求出它的大小n及告警种类数m,并估算出时间窗口Twin
第四步,预设定义告警信息和告警聚类,具体如下:
预设定义告警数据D为<alarm,site,T>;所述alarm表示告警类型,所述site表示告警的站点;所述T表示发生告警的时间;以图1为例,时间轴t上有四个告警信息:
<A,site1,t1>表示在时间t1时,站点site1发生了告警A;
<B,site2,t2>表示在时间t2时,站点site2发生了告警B;
<A,site1,t3>表示在时间t3时,站点site1再次发生了告警A;
<C,site3,t4>表示在时间t4时,站点site3发生了告警C。
预设定义的告警聚类Ω={Ω12,...Ωk};所述k为大于等于1的自然数;所述Ωk表示告警聚类Ω内的第k簇告警数据所述告警聚类Ω内第i告警的告警数据为{alarmi1,alarmi2....alarmik};
预设定义的告警数据<alarm,site,T>的时间窗口W的表达式为:
W=<Twin,<alarm',site,T>>
所述alarm'表示发生告警的时间T的中心,Twin表示时间跨度的时间区间;
所述告警数据<alarm,site,T>的告警起始的时间点为Tstart;所述告警数据<alarm,site,T>的告警结束时间点为Tend;所述告警数据<alarm,site,T>的时间窗为α;告警数据<alarm,site,T>对应的大小为n。
第五步,定义告警间的关系,求得告警数据集内i类的告警与其自身为中心的时间窗口内j类告警时间差的绝对值之和,并标记为Δij
第六步,利用Δij构建构成告警种类m的Δm×m矩阵;其表达式为:
Figure GDA0003416894310000091
第七步,求得Δm×m矩阵的列向量间的协方差,并形成协方差矩阵,具体包括以下步骤:
(71)根据公式(2)求得Δm×m矩阵的列向量间的协方差,并形成协方差矩阵σ,其表达式为:
Figure GDA0003416894310000092
其中,c1,...cm表示Δm×m矩阵中的m列向量;
(72)任一协方差的表达式为:
Figure GDA0003416894310000093
第八步,预设定义i类的告警与j类告警之间的距离,包括以下步骤:
(81)根据公式(3)求得Δm×m矩阵中第i个列向量与第j个列向量的相关程度σij;并利用相关程度σij求得距离d;其表达式为:
d=|σi1j1|+...+|σimjm|。
第九步,建立聚类分析模型,并获得告警聚类输出结果。
(91)将协方差矩阵σ中m'个非零列向量划分为样本点,并将任一零的向量划分为一簇;由所述m'个非零列向量组成一个给定样本集D={x1,...,xm'};
(92)采用K-Means算法对所述给定样本集D进行聚类,以获得C={C1,,...,CK},所述K为小于等于m'的自然数;
求得最佳的聚类数K
(921)建立构造的代价函数,其表达式为:
Figure GDA0003416894310000101
其中,所述μi'表示第i簇的中心,μ表示所有样本点的中心,p表示簇中的点;
(922)根据公式(7)求得最佳的聚类数K,其表达式为:
Figure GDA0003416894310000102
(93)求得C={C1,,...,CK}的最小化平方误差,其表达式为:
Figure GDA0003416894310000103
Figure GDA0003416894310000104
(94)利用R(site,k)={C1,C2,...,Ck}记录站点site所划分的k个簇集合,查询F(site,k)最小的k以及对应的R(site,k)便可获得站点最佳的聚类数以及聚类结果。
为了验证本方法的可行性和优异效果,申请人特将本方法运用在香港移动通讯有限公司("CSL")的无线传输网和无线核心网中,通过EMS检测到设备或线路故障,产生告警(包括基站、微波、核心网元设备告警等)
利用IBM Netcool FM软件通过Probe探针采集告警并存储到oracle数据库。本实验数据采用了oracle数据库中2013/3/10:00-2013/3/1215:27时间段内的100万条、544种告警数据信息,实验语言为Python3,实验平台为内存8GB,CPU为Core i5-2.3GHz,操作系统为Windows10的个人计算机。
从数据库中获取不同数量的时序告警数据,分析数据量与站点种类数关系和数据量与“BMI”站点告警种类数关系,得到了如图7、图8所示的结果。随着时序告警数据量的增加,站点种类数和站点内告警种类数都有明显地上升趋势。这一规律表明,数据量越大,产生告警的原因涵盖得越广,算法的准确度能得到提高。
本发明在时间窗口内,利用告警之间时间差的关系,构造出告警之间新的关系矩阵,并对关系矩阵中的列向量进行聚类分析,将不同原因产生的告警划分在一起。与现有技术相比,本发明具有突出的实质性特点和显著的进步,在云计算技术领域具有很高的实用价值和推广价值。
上述实施例仅为本发明的优选实施例,并非对本发明保护范围的限制,但凡采用本发明的设计原理,以及在此基础上进行非创造性劳动而作出的变化,均应属于本发明的保护范围之内。

Claims (7)

1.一种基于时序性告警的聚类方法,其特征在于,包括以下步骤:
步骤S1,采集原始时序告警数据,解析后存储在告警数据库内;
步骤S2,对告警数据库内的告警数据依据不同的站点进行分类;
步骤S3,利用key-value的映射关系获取对应的告警数据集;
步骤S4,预设定义告警信息和告警聚类;
步骤S5,定义告警间的关系,求得告警数据集内i类的告警与其自身为中心的时间窗口内j类告警时间差的绝对值之和,并标记为Δij;所述i、j均为大于等于1的自然数;
步骤S6,利用Δij构建构成告警种类m的Δm×m矩阵;所述m为大于等于1的自然数;
步骤S7,求得Δm×m矩阵的列向量间的协方差,并形成协方差矩阵;
步骤S8,预设定义i类的告警与j类告警之间的距离;
步骤S9,建立聚类分析模型,并获得告警聚类输出结果。
所述步骤S9中,建立聚类分析模型,包括以下步骤:
步骤S91,将协方差矩阵σ中m'个非零列向量划分为样本点,并将任一零的向量划分为一簇;由所述m'个非零列向量组成一个给定样本集D={x1,...,xm'};
步骤S92,采用K-Means算法对所述给定样本集D进行聚类,以获得聚类结果C={C1,,...,CK},所述K为小于等于m'的自然数;
步骤S93,求得C={C1,,...,CK}的最小化平方误差,其表达式为:
Figure FDA0003416894300000011
Figure FDA0003416894300000012
其中,所述x表示Ci中的一个向量,所述μi表示簇Ci的均值向量;
所述步骤S92中,还包括求得最佳的聚类数K;
步骤S921,建立构造的代价函数,其表达式为:
Figure FDA0003416894300000021
其中,所述μi'表示第i簇的中心,μ表示所有样本点的中心,p表示簇中的点;
步骤S922,根据公式(7)求得最佳的聚类数K,其表达式为:
Figure FDA0003416894300000022
所述步骤S9中,获得告警聚类输出结果,包括以下步骤:
利用R(site,k)={C1,C2,...,Ck}记录站点site所划分的k个簇集合,查询F(site,k)最小的k以及对应的R(site,k)便可获得站点最佳的聚类数以及聚类结果。
2.根据权利要求1所述的一种基于时序性告警的聚类方法,其特征在于,所述步骤S1中,采集和存储原始时序告警数据,解析后存储在告警数据库内,包括以下步骤:
步骤S11,利用EMS设备探测任一云服务的设备和线路的故障,并产生告警信息;
步骤S12,EMS设备采用Syslog或SNMP方式发送告警信息到故障管理FM平台探针,并解析获得告警信息对应的告警名、告警发生时间、告警发生地点和告警摘要;
步骤S13,将所述告警信息集中存储在告警数据库中。
3.根据权利要求2所述的一种基于时序性告警的聚类方法,其特征在于,所述步骤S2中,对告警数据库内的告警数据依据不同的站点进行分类,包括以下步骤:
步骤S21,以每个站点的名称site作为key,获取不同站点内所有的告警信息,并组成一个告警数据集<D1,D2,...,Dn>;
步骤S22,根据告警数据集<D1,D2,...,Dn>形成key-value的映射关系,其表达式为:
Hsite=<D1,D2,...,Dn> (1)。
4.根据权利要求3所述的一种基于时序性告警的聚类方法,其特征在于,所述步骤S4中,预设定义告警信息和告警聚类,包括:预设定义的告警信息包括定义告警数据、告警数据D、告警聚类Ω、时间窗口W;
预设定义告警数据D为<alarm,site,T>;所述alarm表示告警类型,所述site表示告警的站点;所述T表示发生告警的时间;
预设定义的告警聚类Ω={Ω12,...Ωk};所述k为大于等于1的自然数;所述Ωk表示告警聚类Ω内的第k簇告警数据;所述告警聚类Ω内第i告警的告警数据为{alarmi1,alarmi2....alarmik};
预设定义的告警数据<alarm,site,T>的时间窗口W的表达式为:
W=<Twin,<alarm',site,T>>
所述alarm'表示发生告警的时间T的中心,Twin表示时间跨度的时间区间;
所述告警数据<alarm,site,T>的告警起始的时间点为Tstart;所述告警数据<alarm,site,T>的告警结束时间点为Tend;所述告警数据<alarm,site,T>的时间窗为α;告警数据<alarm,site,T>对应的大小为n。
5.根据权利要求4所述的一种基于时序性告警的聚类方法,其特征在于,所述步骤S6中,利用Δij构建构成告警种类m的Δm×m矩阵,其表达式为:
Figure FDA0003416894300000031
6.根据权利要求5所述的一种基于时序性告警的聚类方法,其特征在于,所述步骤S7中,求得Δm×m矩阵的列向量间的协方差,并形成协方差矩阵,包括以下步骤:
步骤S71,根据公式(2)求得Δm×m矩阵的列向量间的协方差,并形成协方差矩阵σ,其表达式为:
Figure FDA0003416894300000041
其中,c1,...cm表示Δm×m矩阵中的m列向量;
步骤S72,任一协方差的表达式为:
Figure FDA0003416894300000042
其中,Xi表示列向量X中第i维度的值,
Figure FDA0003416894300000043
表示X列向量内所有维度值的平均值,Yi表示列向量Y中第i维度的值,
Figure FDA0003416894300000044
表示Y列向量内所有维度值的平均值。
7.根据权利要求6所述的一种基于时序性告警的聚类方法,其特征在于,所述步骤S8中,预设定义i类的告警与j类告警之间的距离,包括以下步骤:
根据公式(3)求得Δm×m矩阵中第i个列向量与第j个列向量的相关程度σij;并利用相关程度σij求得距离d;其表达式为:
d=|σi1j1|+...+|σimjm|
所述σi1表示协方差矩阵σ中的第i行第1列的元素,σj1表示协方差矩阵σ中的第j行第1列的元素,σim表示协方差矩阵σ中的第i行第m列的元素,σjm表示协方差矩阵σ中的第j行第m列的元素。
CN201910677470.4A 2019-07-25 2019-07-25 一种基于时序性告警的聚类方法 Active CN110391936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910677470.4A CN110391936B (zh) 2019-07-25 2019-07-25 一种基于时序性告警的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910677470.4A CN110391936B (zh) 2019-07-25 2019-07-25 一种基于时序性告警的聚类方法

Publications (2)

Publication Number Publication Date
CN110391936A CN110391936A (zh) 2019-10-29
CN110391936B true CN110391936B (zh) 2022-03-01

Family

ID=68287491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910677470.4A Active CN110391936B (zh) 2019-07-25 2019-07-25 一种基于时序性告警的聚类方法

Country Status (1)

Country Link
CN (1) CN110391936B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113839799B (zh) * 2020-06-24 2023-05-05 中国移动通信集团广东有限公司 一种告警关联规则挖掘方法及装置
CN111898647B (zh) * 2020-07-07 2022-12-09 贵州电网有限责任公司 一种基于聚类分析的低压配电设备误告警识别方法
CN112380340B (zh) * 2020-11-06 2023-10-20 广东电网有限责任公司东莞供电局 一种主站与电厂、变电站之间的错误数据诊断方法及系统
CN113822570B (zh) * 2021-09-20 2023-09-26 北京瀚博网络科技有限公司 一种基于大数据分析的企业生产数据存储方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101247269A (zh) * 2008-03-05 2008-08-20 中兴通讯股份有限公司 一种自动发现判定冗余告警的关联规则的方法
CN105205568A (zh) * 2015-10-14 2015-12-30 广东电网有限责任公司电力调度控制中心 告警事务提取方法及系统
CN105577403A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 基于频繁路径的告警相关性数据挖掘方法和装置
CN107561997A (zh) * 2017-08-22 2018-01-09 电子科技大学 一种基于大数据决策树的电力设备状态监测方法
CN107832896A (zh) * 2017-11-29 2018-03-23 广东电网有限责任公司电力科学研究院 一种电厂设备缓变故障预警方法及装置
CN109188244A (zh) * 2018-09-03 2019-01-11 长沙学院 基于改进FastICA的开关电流电路故障诊断方法
CN109684181A (zh) * 2018-11-20 2019-04-26 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
CN109995561A (zh) * 2017-12-30 2019-07-09 中国移动通信集团福建有限公司 通信网络故障定位的方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8245079B2 (en) * 2010-09-21 2012-08-14 Verizon Patent And Licensing, Inc. Correlation of network alarm messages based on alarm time

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101247269A (zh) * 2008-03-05 2008-08-20 中兴通讯股份有限公司 一种自动发现判定冗余告警的关联规则的方法
CN105577403A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 基于频繁路径的告警相关性数据挖掘方法和装置
CN105205568A (zh) * 2015-10-14 2015-12-30 广东电网有限责任公司电力调度控制中心 告警事务提取方法及系统
CN107561997A (zh) * 2017-08-22 2018-01-09 电子科技大学 一种基于大数据决策树的电力设备状态监测方法
CN107832896A (zh) * 2017-11-29 2018-03-23 广东电网有限责任公司电力科学研究院 一种电厂设备缓变故障预警方法及装置
CN109995561A (zh) * 2017-12-30 2019-07-09 中国移动通信集团福建有限公司 通信网络故障定位的方法、装置、设备及介质
CN109188244A (zh) * 2018-09-03 2019-01-11 长沙学院 基于改进FastICA的开关电流电路故障诊断方法
CN109684181A (zh) * 2018-11-20 2019-04-26 华为技术有限公司 告警根因分析方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Autonomous mining for alarm correlation patterns based on time-shift similarity clustering in manufacturing system;Yan Chen,Jay Lee;《IEEE》;20110923;全文 *
基于业务时间窗选取的告警聚类及关联方法;杨剑 蓝明超;《光通信研究》;20190131;全文 *

Also Published As

Publication number Publication date
CN110391936A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN110391936B (zh) 一种基于时序性告警的聚类方法
CN110609759B (zh) 一种故障根因分析的方法及装置
CN106708016B (zh) 故障监控方法和装置
US11748227B2 (en) Proactive information technology infrastructure management
Li et al. An integrated framework on mining logs files for computing system management
JP4162250B2 (ja) 分散した部品木から故障部品の組み合わせを求める方法、システム
WO2022083576A1 (zh) 一种网络功能虚拟化设备运行数据的分析方法及装置
US20070282768A1 (en) Artificial Intelligence Analyzer and Generator
CN103513983A (zh) 用于预测性警报阈值确定工具的方法和系统
CN113723452A (zh) 一种基于kpi聚类的大规模异常检测系统
CN111143428A (zh) 一种基于关联分析法的保护异常告警处理方法
CN111859479A (zh) Pdm系统中工程变更全生命周期管理方法及系统
Lin et al. Facgraph: Frequent anomaly correlation graph mining for root cause diagnose in micro-service architecture
Li et al. Preprocessing expert system for mining association rules in telecommunication networks
Nagy et al. On the structural properties of social networks and their measurement-calibrated synthetic counterparts
CN111290969B (zh) 基于特征频度统计的软件质量分析方法
CN110727538B (zh) 一种基于模型命中概率分布的故障定位系统及方法
Sentas et al. Multinomial logistic regression applied on software productivity prediction
CN113781758A (zh) 面向高端燃煤发电装备的变量协同动态报警阈值优化方法
Kuang et al. An Association Rules-Based Method for Outliers Cleaning of Measurement Data in the Distribution Network
Ip et al. ML-assisted monitoring and characterization of IoT sensor networks
CN117560275B (zh) 基于图神经网络模型的微服务系统根因定位方法及装置
Chen et al. Discrete event chain description of power system transient dynamic simulations for efficient cluster analysis
CN113657627B (zh) 电力通信网中缺陷单生成方法和系统
Gottumukkala et al. Fault Detection in Mobile Communication Networks Using Data Mining techniques with big data analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant