CN108809757B - 一种系统告警方法、存储介质和服务器 - Google Patents

一种系统告警方法、存储介质和服务器 Download PDF

Info

Publication number
CN108809757B
CN108809757B CN201810495129.2A CN201810495129A CN108809757B CN 108809757 B CN108809757 B CN 108809757B CN 201810495129 A CN201810495129 A CN 201810495129A CN 108809757 B CN108809757 B CN 108809757B
Authority
CN
China
Prior art keywords
alarm information
alarm
equipment
similarity
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810495129.2A
Other languages
English (en)
Other versions
CN108809757A (zh
Inventor
谢晓华
杨海勇
陈天豪
袁少雄
金鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810495129.2A priority Critical patent/CN108809757B/zh
Priority to PCT/CN2018/093703 priority patent/WO2019223061A1/zh
Publication of CN108809757A publication Critical patent/CN108809757A/zh
Application granted granted Critical
Publication of CN108809757B publication Critical patent/CN108809757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Alarm Systems (AREA)

Abstract

本发明提供了一种系统告警方法、存储介质和服务器,包括:对系统中设备的运行情况进行监控,检测所述设备的告警信息;若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;基于收敛后的告警信息发送告警通知。本发明可降低告警处理的成本,提高故障处理效率。

Description

一种系统告警方法、存储介质和服务器
技术领域
本发明涉及信息监控领域,尤其涉及一种系统告警方法、存储介质和服务器。
背景技术
通信网络的不断发展,无线网络不论在容量上还是在复杂度上都变得越来越大,与此同时,在通信网络系统中,对于各类型信息的管理也就变得越来越困难。其中之一就是网络中的告警故障通知。
随着各种服务器、服务器集群等网络设备的大规模使用,对设备和服务器是否正常工作的监控也愈加重要,识别并及时纠正系统中的故障是保障系统正常运行的重要基础。然而,监控大规模的使用设备和服务器同时会带来海量的告警通知,甚至可能导致告警风暴,海量的告警通知中还包括大量同一个故障的告警通知,对海量的告警通知的处理将消耗运维人员极大的精力,并提高了运维成本。
综上所述,现有的海量告警通知处理方法存在成本高,且处理效率不高的问题。
发明内容
本发明实施例提供了一种系统告警方法、存储介质和服务器,以解决现有技术中,海量告警通知处理方法存在成本高,且处理效率不高的问题。
本发明实施例的第一方面提供了一种系统告警方法,包括:
对系统中设备的运行情况进行监控,检测所述设备的告警信息;
若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
基于收敛后的告警信息发送告警通知。
本发明实施例的第二方面提供了一种服务器,包括存储器以及处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
对系统中设备的运行情况进行监控,检测所述设备的告警信息;
若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
基于收敛后的告警信息发送告警通知。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
对系统中设备的运行情况进行监控,检测所述设备的告警信息;
若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
基于收敛后的告警信息发送告警通知。
本发明实施例中,通过对系统中设备的运行情况进行监控,检测所述设备的告警信息,若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合,基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,基于收敛后的告警信息发送告警通知,本方案针对系统中的不同监控方式采用不同的信息收敛方式,将海量的告警信息进行收敛,发送至运维人员的告警通知大量减少,有效减少运维人员的精力损耗,方便运维人员集中注意处理故障,从而降低告警处理的成本,提高故障处理效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的系统告警方法的实现流程图;
图2是本发明实施例提供的系统告警方法S103的具体实现流程图;
图3是本发明实施例提供的系统告警方法S104的一种实现流程图;
图4是本发明实施例提供的系统告警方法S104的另一种实现流程图;
图5是本发明实施例提供的系统告警方法计算余弦相似度的一种实现流程图;
图6是本发明实施例提供的系统告警装置的结构框图;
图7是本发明实施例提供的服务器的示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了本发明实施例提供的系统告警方法的实现流程,该方法流程包括步骤S101至S105。各步骤的具体实现原理如下:
S101:对系统中设备的运行情况进行监控,检测所述设备的告警信息。
具体地,监控的运行情况包括请求响应速度、后台数据报错、访问量和指定指标,进一步地,还包括系统中设备的带宽、CPU、内存等性能指标的情况。所述告警信息包括告警级别、告警设备编号、服务器所在IP以及告警原因,所述告警信息还包括异常紧急联系人、联系方式以及处理该异常的处理指引。
系统中的设备包括客户端、服务器、路由器、中继器、集线器、交换机等等。所述设备即可以是实体设备,也可以是虚拟设备。例如,对于具备多个互联网通讯协议地址(InternetProtocolAddress,IP地址)的服务器,则每一个IP地址对应的虚拟机都是系统中的一个设备,当设备运行过程中出现异常时,会发送告警信息通知运维人员。在本发明实施例中,通过对系统中的设备进行监控,获取设备的告警信息,以便运维人员及时进行维护。
可选地,在本发明实施例中,系统实时监控系统中设备的运行情况,实时主动采集设备的告警信息,从而及时获知系统中设备运行出现的异常;或者,系统定期对系统中设备的运行情况进行监控,定期接收设备主动上报的告警信息,从而降低系统的功耗。
S102:若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合。
在本发明实施例中,建立告警信息集合,所述告警信息集合用于存入检测到的告警信息。系统的监控方式分为全链路监控和非全链路监控。在分布式系统中,系统中一个完整的调用过程可能横跨多个服务及数据中心,全链路监控可从整体维度到局部维度展示各项指标,可方便度量整体和局部性能,并且方便找到故障产生的源头,可极大缩短故障排除时间。
可选地,根据告警信息中的告警原因建立告警信息集合,并在所述告警信息集合中贴上所述告警原因的标签,若检测到多条告警信息,将多条告警信息按告警原因分类,将相同告警原因的告警信息收敛至贴有所述告警原因的告警信息集合中,基于分类的告警信息集合发送告警通知。
S103:基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中。
具体地,在全链路监控方式下对系统中的设备进行监控时,若检测到多条告警信息,不针对每一条告警信息发送告警通知,而是将检测到的告警信息收敛至所述告警信息集合,基于所述告警信息集合,按预设的间隔时间发送告警通知,在发送告警通知的间隔时间内检测到新的告警信息时,不立即根据所述新的告警信息发送告警通知,而是记录所述新的告警信息,并将所述新的告警信息收敛至所述告警信息集合中。所述记录所述新的告警信息包括记录检测到的时间。
作为本发明的一个实施例,如图2所示,上述S103具体包括:
A1:若首次采集到所述设备的告警信息,根据所述告警信息发送第一次告警通知。所述首次采集到所述设备的告警信息是指在全链路监控开启时,第一次检测到系统中设备的告警信息。
A2:若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知。所述异常解决反馈信息用于通知设备的异常已处理完毕。具体地,系统中的设备在出现异常时会发送告警信息,若所述设备的异常已解决,则会发送异常解决反馈信息,通知系统该异常已解决。
A3:若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,直到接收到所述设备发送的异常解决反馈信息时,结束对所述设备的告警信息的收敛。进一步地的,所述第一预设时间小与或等于所述第二预设时间。
具体地,在全链路监控方式下,将检测到的设备的告警信息存入告警信息集合中,若为首次采集到的告警信息,则立即发送告警通知,并检测异常解决反馈信息,若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知,继续检测异常解决反馈信息,若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,即基于所述告警信息集合发送告警通知的间隔时间是递增延长,并将间隔时间内检测到的告警信息收敛至告警信息集合中。
示例性地,系统中A备的服务请求发生了故障,在检测到该A设备发送的告警信息后,发送第一次告警通知,此时时间为10:00,若该故障在预设时间内如5分钟内,还未解决,即在5分钟内未收到A设备发送的异常解决反馈信息,则发送第二次告警通知,此时时间为10:05。如果在10:10该A设备的故障还是没有得到解决,触发收敛操作,按预设等比系数递增发送告警通知的时间,如预设等比系数为2,则下一次发送告警通知的时间为10:20,在10:10至10:20分之间继续检测告警信息和异常解决反馈信息,若检测到告警信息,则记录并将该告警信息收敛至告警信息集合,但不发送告警通知,若检测到异常解决反馈信息,则结束收敛告警信息集合,并在10:20不再发送告警通知,若在这期间还未检测到异常解决反馈信息,在10:20发送告警通知,并确定下次发送告警通知的时间为10:40。
在本发明实施例中,无需针对每条告警信息发送告警通知,可降低分布式系统中告警处理的成本,提高告警处理效率。
S104:若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛。
在本发明实施例中,若系统中的监控方式为非全链路监控,采用相似度收敛方式对采集的不同设备的告警信息进行收敛。具体地,相似度是指告警信息的文本相似度。在首次检测检测到告警信息时,发送告警通知,计算后续检测到的告警信息与首次检测到的告警信息的相似度,若计算的相似度不小于预设的相似度阈值,则将后续检测到的告警信息收敛至所述首次检测到的告警信息的告警信息集合中。
可选地,计算指定时间内检测到的告警信息的相似度,具体为计算告警信息的余弦相似度。余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中。
作为本发明的一个实施例,图3示出了本发明实施例提供的系统告警方法S104的具体实现流程,详述如下:
B1:将检测到的所述设备的第一告警信息存入存储器,设置所述第一告警信息的第一有效时间,并开始计时。所述第一有效时间是指基于所述第一告警信息收敛新检测到的告警信息的有效时间。
B2:在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
B3:比较所述第一余弦相似度与预设的相似度阈值。
B4:若计算的所述第一余弦相似度达到预设的相似度阈值,则将所述设备的所述第一告警信息作为收敛因子,将所述设备的所述第二告警信息收敛。
示例性地,在首次检测到一条告警信息B时,将其存入存储器,设置该告警信息作为收敛因子的有效时间为15分钟,并开启计时,将在15分钟内检测到的告警信息都与告警信息B进行余弦相似度比对,相似度在99%以上的告警信息将会被收敛至所述告警信息B的告警信息集合中,不会发送告警通知,在15分钟之后检测到的告警信息不会与B再做余弦相似度比对。
可选地,根据收敛于集合中的告警信息,生成告警收敛表,以便运维人员随时查看。上述告警收敛表中包括收敛因子和收敛的时间。
进一步地,图4所示,所述步骤S104还包括:
B5:若计算的所述第一余弦相似度的值未达到预设的相似度阈值,则将所述第二告警信息存入存储器,设置所述第二告警信息的第二有效时间,并开始计时。
B6:在所述第二告警信息的第二有效时间内检测到第三告警信息时,计算所述第三告警信息与所述第二告警信息的第二余弦相似度。
B7:比较所述第二余弦相似度与预设的相似度阈值。
B8:若计算的所述第二余弦相似度不小于所述预设的相似度阈值,则将所述设备的所述第二告警信息作为收敛因子,将所述设备的所述第三告警信息收敛。
在本发明实施例中,当检测到的第二告警信息与第一告警信息的余弦相似度小于预设的相似度阈值时,将第二告警信息存入存储器,设置第二告警信息作为收敛因子的第二有效时间,计算在第二有效时间内检测到第三告警信息与所述第二告警信息的余弦相似度,并将达到预设的相似度阈值的告警信息收敛至所述第二告警信息的告警信息集合中。
需说明的是,若第一告警信息的第一有效时间与第二告警信息的第二有效时间存在重叠时间,例如,在第一告警信息开启计时三分钟时检测到第二告警信息,第二告警信息与第一告警信息的相似度未达到预设的相似度阈值,设置第二告警信息的有效时间,此时,第一告警信息的第一有效时间与第二告警信息的第二有效时间存在12分钟的重叠时间,则在该重叠时间内检测到的第三告警信息,既要计算与第一告警信息的余弦相似度,也要计算与第二告警信息的余弦相似度。进一步,当计算的与第一告警信息的余弦相似度达到预设的相似度阈值时,将第一告警信息作为收敛因子收敛该第三告警信息,不再计算该第三告警信息与第二告警信息的余弦相似度。
作为本发明的一个实施例,如图5所示,上述B2具体包括:
B21:将所述第一告警信息进行分词处理,并将所述第一告警信息经分词处理后的词放入第一词集中。
B22:将所述第二告警信息进行分词处理,并将所述第二告警信息经分词处理后的词放入第二词集中。
B23:计算所述第一词集中每个词的词频,并根据所述第一词集中的词频,建立第一词频向量。
B24:计算所述第二词集中每个词的词频,并根据所述第二词集中的词频,建立第二词频向量。
B25:根据所述第一词频向量与所述第二词频向量计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
在本发明实施例中,通过将告警信息进行分词处理,具体地,可根据预设的词库对告警信息进行分词处理,并计算经分词处理后的词的词频,根据词频计算告警信息之间的余弦相似度。
示例性地,第一告警信息A的内容如下:
High#前海征信相关异常告警#PROBLEM:#QHCS-DFEP#telnet上游数据源超时--法海,告警主机:QHCS-DFEP-AIO-FRONT-DMZ_10.35.184.113;
第二告警信息B的内容如下:
High#前海征信相关异常告警#PROBLEM:#QHCS-DFEP#telnet上游数据源超时--GEO,告警主机:QHCS-DFEP-AIO-FRONT-DMZ_10.35.184.111;
列出第一告警信息A和第二告警信息B中所有的词:
High、前海征信、相关、异常、告警、PROBLEM、telnet、上游、数据源、超时、法海、GEO、告警主机、QHCS、DFEP、AIO、FRONT、DMZ、10、35、184、111、10、35、184、113。
分别计算第一告警信息A和第二告警信息B的词频,即统计每个分词出现的次数:
第一告警信息A:High(1)、前海征信(1)、相关(1)、异常(1)、告警(1)、PROBLEM(1)、telnet(1)、上游(1)、数据源(1)、超时(1)、法海(1)、GEO(0)、告警主机(1)、QHCS(2)、DFEP(2)、AIO(1)、FRONT(1)、DMZ(1)、10(1)、35(1)、184(1)、111(1)、113(0);
第二告警信息B:High(1)、前海征信(1)、相关(1)、异常(1)、告警(1)、PROBLEM(1)、telnet(1)、上游(1)、数据源(1)、超时(1)、法海(0)、GEO(1)、告警主机(1)、QHCS(2)、DFEP(2)、AIO(1)、FRONT(1)、DMZ(1)、10(1)、35(1)、184(1)、111(0)、113(1);
根据计算的词频建立词频向量:
第一告警信息的词频向量A:(1,1,1,1,1,1,1,1,1,1,0,1,1,2,2,1,1,1,1,1,1,0,1)
第二告警信息的词频向量B:(1,1,1,1,1,1,1,1,1,1,1,0,1,2,2,1,1,1,1,1,1,1,0)。
可选地,上述B25具体包括:
根据下列公式计算所述第二告警信息与所述第一告警信息的第一余弦相似度COSθ1
Figure BDA0001668935410000101
其中,A为第一告警信息的第一词频向量,B为所述第二告警信息的第二词频向量。
S105:基于收敛后的告警信息发送告警通知。
在本发明实施例中,基于作为收敛因子的告警信息发送告警通知至指定的通讯账号以通知运维人员。进一步地,可根据预设的等比系数等比递增发送告警通知的间隔时间,作为收敛因子的告警信息的有效时间结束。
可选地,当根据同一收敛因子收敛的告警信息的条数达到预设条数时,触发告警升级机制,告警升级一次后会额外发送一次告警通知。告警级别包括warn(需要关注)、high(需要整改)、critical(需要马上处理)、Disaster(立即上报并处理)。例如,当同一个收敛因子收敛了5条告警信息之后告警升级,升级后会额外发送一次告警通知,发送告警通知至指定的通讯账号以通知运维人员收敛的告警信息的条数,以便提醒运维人员提升对告警信息的关注度。
本发明实施例中,通过对系统中设备的运行情况进行监控,检测所述设备的告警信息,若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合,基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,基于收敛后的告警信息发送告警通知,本方案针对系统中的不同监控方式采用不同的信息收敛方式,将海量的告警信息进行收敛,发送至运维人员的告警通知大量减少,有效减少运维人员的精力损耗,方便运维人员集中注意处理故障,从而降低告警处理的成本,提高故障处理效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的系统告警方法,图6示出了本申请实施例提供的系统告警装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图6,该系统告警装置包括:信息监控单元61,第一信息处理单元62,第一告警通知单元63,第二信息处理单元64,第二告警通知单元65,其中:
信息监控单元61,用于对系统中设备的运行情况进行监控,检测所述设备的告警信息;
第一信息处理单元62,用于若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
第一告警通知单元63,用于基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
第二信息处理单元64,用于若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
第二告警通知单元65,用于基于收敛后的告警信息发送告警通知。
可选地,所述第一告警通知单元63包括:
第一告警模块,用于若首次采集到所述设备的告警信息,根据所述告警信息发送第一次告警通知;
第二告警模块,用于若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知;
收敛触发模块,用于若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,直到接收到所述设备发送的异常解决反馈信息时,结束对所述设备的告警信息的收敛。
可选地,所述第二信息处理单元64包括:
第一时间设置模块,用于将检测到的所述设备的第一告警信息存入存储器,设置所述第一告警信息的第一有效时间,并开始计时;
第一相似度计算模块,用于在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度;
第一比较模块,用于比较所述第一余弦相似度与预设的相似度阈值;
第一收敛模块,用于若计算的所述第一余弦相似度达到预设的相似度阈值,则将所述设备的所述第一告警信息作为收敛因子,将所述设备的所述第二告警信息收敛。
可选地,所述第一相似度计算模块还包括:
第一分词子模块,用于将所述第一告警信息进行分词处理,并将所述第一告警信息经分词处理后的词放入第一词集中;
第二分词子模块,用于将所述第二告警信息进行分词处理,并将所述第二告警信息经分词处理后的词放入第二词集中;
第一向量建立子模块,用于计算所述第一词集中每个词的词频,并根据所述第一词集中的词频,建立第一词频向量;
第二向量建立子模块,用于计算所述第二词集中每个词的词频,并根据所述第二词集中的词频,建立第二词频向量;
第一相似度计算子模块,用于根据所述第一词频向量与所述第二词频向量计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
可选地,所述第一相似度计算子模块,还用于根据下列公式计算所述第二告警信息与所述第一告警信息的第一余弦相似度COSθ1
Figure BDA0001668935410000131
其中,A为第一告警信息的第一词频向量,B为所述第二告警信息的第二词频向量。
可选地,所述第二信息处理单元64还包括:
第二时间设置模块,用于若计算的所述第一余弦相似度的值未达到预设的相似度阈值,则将所述第二告警信息存入存储器,设置所述第二告警信息的第二有效时间,并开始计时;
第二相似度计算模块,用于在所述第二告警信息的第二有效时间内检测到第三告警信息时,计算所述第三告警信息与所述第二告警信息的第二余弦相似度;
第二比较模块,用于比较所述第二余弦相似度与预设的相似度阈值;
第二收敛模块,用于若计算的所述第二余弦相似度不小于所述预设的相似度阈值,则将所述设备的所述第二告警信息作为收敛因子,将所述设备的所述第三告警信息收敛。
本发明实施例中,通过对系统中设备的运行情况进行监控,检测所述设备的告警信息,若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合,基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,基于收敛后的告警信息发送告警通知,本方案针对系统中的不同监控方式采用不同的信息收敛方式,将海量的告警信息进行收敛,发送至运维人员的告警通知大量减少,有效减少运维人员的精力损耗,方便运维人员集中注意处理故障,从而降低告警处理的成本,提高故障处理效率。
图7是本发明一实施例提供的服务器的示意图。如图7所示,该实施例的服务器7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如系统告警程序。所述处理器70执行所述计算机程序72时实现上述各个系统告警方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块61至65的功能。
示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述服务器7中的执行过程。
所述服务器7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是服务器7的示例,并不构成对服务器7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。
所述处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述服务器7的内部存储单元,例如服务器7的硬盘或内存。所述存储器71也可以是所述服务器7的外部存储设备,例如所述服务器7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述服务器7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种系统告警方法,其特征在于,包括:
对系统中设备的运行情况进行监控,检测所述设备的告警信息;
若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
基于收敛后的告警信息发送告警通知。
2.根据权利要求1所述的系统告警方法,其特征在于,所述基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,包括:
若首次采集到所述设备的告警信息,根据所述告警信息发送第一次告警通知;
若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知;
若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,直到接收到所述设备发送的异常解决反馈信息时,结束对所述设备的告警信息的收敛。
3.根据权利要求1所述的系统告警方法,其特征在于,所述若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,包括:
将检测到的所述设备的第一告警信息存入存储器,设置所述第一告警信息的第一有效时间,并开始计时;
在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度;
比较所述第一余弦相似度与预设的相似度阈值;
若计算的所述第一余弦相似度达到预设的相似度阈值,则将所述设备的所述第一告警信息作为收敛因子,将所述设备的所述第二告警信息收敛。
4.根据权利要求3所述的系统告警方法,其特征在于,所述若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,还包括:
若计算的所述第一余弦相似度的值未达到预设的相似度阈值,则将所述第二告警信息存入存储器,设置所述第二告警信息的第二有效时间,并开始计时;
在所述第二告警信息的第二有效时间内检测到第三告警信息时,计算所述第三告警信息与所述第二告警信息的第二余弦相似度;
比较所述第二余弦相似度与预设的相似度阈值;
若计算的所述第二余弦相似度不小于所述预设的相似度阈值,则将所述设备的所述第二告警信息作为收敛因子,将所述设备的所述第三告警信息收敛。
5.根据权利要求3所述的系统告警方法,其特征在于,所述在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度,包括:
将所述第一告警信息进行分词处理,并将所述第一告警信息经分词处理后的词放入第一词集中;
将所述第二告警信息进行分词处理,并将所述第二告警信息经分词处理后的词放入第二词集中;
计算所述第一词集中每个词的词频,并根据所述第一词集中的词频,建立第一词频向量;
计算所述第二词集中每个词的词频,并根据所述第二词集中的词频,建立第二词频向量;
根据所述第一词频向量与所述第二词频向量计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
6.根据权利要求5所述的系统告警方法,其特征在于,所述根据所述第一词频向量与所述第二词频向量 计算所述第二告警信息与所述第一告警信息的第一余弦相似度,包括:
根据下列公式计算所述第二告警信息与所述第一告警信息的第一余弦相似度COSθ1
Figure FDA0001668935400000031
其中,A为第一告警信息的第一词频向量,B为所述第二告警信息的第二词频向量。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述系统告警方法的步骤。
8.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下步骤:
对系统中设备的运行情况进行监控,检测所述设备的告警信息;
若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
基于收敛后的告警信息发送告警通知。
9.如权利要求8所述的服务器,其特征在于,所述基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,包括:
若首次采集到所述设备的告警信息,根据所述告警信息发送第一次告警通知;
若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知;
若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,直到接收到所述设备发送的异常解决反馈信息时,结束对所述设备的告警信息的收敛。
10.如权利要求8所述的服务器,其特征在于,所述若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,包括:
将检测到的所述设备的第一告警信息存入存储器,设置所述第一告警信息的第一有效时间,并开始计时;
在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度;
比较所述第一余弦相似度与预设的相似度阈值;
若计算的所述第一余弦相似度达到预设的相似度阈值,则将所述设备的所述第一告警信息作为收敛因子,将所述设备的所述第二告警信息收敛。
CN201810495129.2A 2018-05-22 2018-05-22 一种系统告警方法、存储介质和服务器 Active CN108809757B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810495129.2A CN108809757B (zh) 2018-05-22 2018-05-22 一种系统告警方法、存储介质和服务器
PCT/CN2018/093703 WO2019223061A1 (zh) 2018-05-22 2018-06-29 一种系统告警方法、存储介质、服务器和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810495129.2A CN108809757B (zh) 2018-05-22 2018-05-22 一种系统告警方法、存储介质和服务器

Publications (2)

Publication Number Publication Date
CN108809757A CN108809757A (zh) 2018-11-13
CN108809757B true CN108809757B (zh) 2021-06-15

Family

ID=64092718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810495129.2A Active CN108809757B (zh) 2018-05-22 2018-05-22 一种系统告警方法、存储介质和服务器

Country Status (2)

Country Link
CN (1) CN108809757B (zh)
WO (1) WO2019223061A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871305B (zh) * 2019-01-18 2022-11-04 深圳壹账通智能科技有限公司 告警信息的处理方法、装置、计算机设备及存储介质
CN110166307A (zh) * 2019-07-02 2019-08-23 中国工商银行股份有限公司 对告警信息进行处理的方法和装置
CN110457185B (zh) * 2019-07-25 2024-01-23 北京奇艺世纪科技有限公司 一种异常报警方法、装置及电子设备
CN111061605A (zh) * 2019-10-25 2020-04-24 山东英信计算机技术有限公司 一种告警信息分拣方法及相关装置
CN111163075B (zh) * 2019-12-25 2022-04-12 北京科东电力控制系统有限责任公司 电力监控系统设备性能指标阈值动态调整方法
CN111400435B (zh) * 2020-02-19 2024-04-12 中国平安人寿保险股份有限公司 邮件告警收敛方法、装置、计算机设备及存储介质
CN111970484B (zh) * 2020-07-14 2021-03-23 中通服网盈科技有限公司 适于视频监控设备的运维系统和运维方法
CN112667807A (zh) * 2020-12-02 2021-04-16 深圳奥哲网络科技有限公司 信息分类方法、装置、电子设备及存储介质
CN112416721B (zh) * 2020-12-11 2022-09-20 苏州浪潮智能科技有限公司 一种告警处理方法、系统及介质
CN114157553A (zh) * 2021-12-08 2022-03-08 深圳前海微众银行股份有限公司 一种数据处理方法、装置、设备及存储介质
CN117135034B (zh) * 2023-10-23 2024-01-30 卓望数码技术(深圳)有限公司 一种用于告警智能收敛的规则分析筛选方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102340422A (zh) * 2011-10-28 2012-02-01 青岛海信传媒网络技术有限公司 告警的处理方法和系统
CN103246723A (zh) * 2013-05-08 2013-08-14 国家电网公司 一种监控器及方法
CN105550714A (zh) * 2015-12-30 2016-05-04 国家电网公司 一种异构网络环境中告警信息的聚类融合方法
US9432248B2 (en) * 2013-12-31 2016-08-30 Cisco Technology, Inc. Dynamically computing fate sharing in computer networks using learning machines
CN107340766A (zh) * 2017-07-10 2017-11-10 浙江大学 基于相似度的电力调度告警信号文本归类及故障诊断方法
CN107547228A (zh) * 2016-06-29 2018-01-05 南京联成科技发展股份有限公司 一种基于大数据的安全运维管理平台的实现架构

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856339B (zh) * 2012-12-04 2017-11-21 中国移动通信集团广西有限公司 一种对告警信息进行压缩的方法和设备
US20140258696A1 (en) * 2013-03-05 2014-09-11 Qualcomm Incorporated Strided target address predictor (stap) for indirect branches
CN105323111B (zh) * 2015-11-17 2018-08-10 南京南瑞集团公司 一种运维自动化系统及方法
CN105653430A (zh) * 2016-01-04 2016-06-08 山东超越数控电子有限公司 一种处理服务器管理信息的方法、装置及系统
CN107181604B (zh) * 2016-03-09 2020-06-02 华为技术有限公司 一种告警关联规则的生成方法、告警压缩方法以及装置
CN106027306A (zh) * 2016-05-26 2016-10-12 浪潮(北京)电子信息产业有限公司 一种资源监控方法及装置
CN107168847A (zh) * 2017-04-21 2017-09-15 国家电网公司 一种支撑分布式架构的全链路应用监控方法与装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102340422A (zh) * 2011-10-28 2012-02-01 青岛海信传媒网络技术有限公司 告警的处理方法和系统
CN103246723A (zh) * 2013-05-08 2013-08-14 国家电网公司 一种监控器及方法
US9432248B2 (en) * 2013-12-31 2016-08-30 Cisco Technology, Inc. Dynamically computing fate sharing in computer networks using learning machines
CN105550714A (zh) * 2015-12-30 2016-05-04 国家电网公司 一种异构网络环境中告警信息的聚类融合方法
CN107547228A (zh) * 2016-06-29 2018-01-05 南京联成科技发展股份有限公司 一种基于大数据的安全运维管理平台的实现架构
CN107340766A (zh) * 2017-07-10 2017-11-10 浙江大学 基于相似度的电力调度告警信号文本归类及故障诊断方法

Also Published As

Publication number Publication date
WO2019223061A1 (zh) 2019-11-28
CN108809757A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108809757B (zh) 一种系统告警方法、存储介质和服务器
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN107835098B (zh) 一种网络故障检测方法及系统
CN107204875B (zh) 数据上报链路监测方法、装置、电子设备及存储介质
CN112737800B (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN110618890B (zh) 故障处理方法、装置、电子设备及计算机可读存储介质
US10129277B1 (en) Methods for detecting malicious network traffic and devices thereof
CN114338372A (zh) 网络信息安全监控方法及系统
CN111628903B (zh) 交易系统运行状态的监控方法及监控系统
CN109818808A (zh) 故障诊断方法、装置和电子设备
CN109150626A (zh) Ftp服务监测方法、装置、终端及计算机可读存储介质
CN111062503B (zh) 一种电网监控告警处理方法、系统、终端及存储介质
CN116455725A (zh) 一种网络故障告警方法、系统、终端及存储介质
CN115102730B (zh) 多种设备的一体化监控方法、装置及电子设备
WO2020014829A1 (zh) 支付网关网络连接检测方法及终端设备
WO2014040470A1 (zh) 告警消息的处理方法及装置
CN114285786A (zh) 一种网络链路库的构建方法及装置
CN114448689A (zh) 工控网络的边界设备确定方法、装置、设备及存储介质
CN107885618B (zh) 基于网络游戏的数据监控方法、装置、设备及存储介质
CN117424762B (zh) 一种ddos攻击检测方法、介质及设备
CN110852537A (zh) 服务质量检测方法和装置
CN113542012B (zh) 一种故障检测方法、故障检测装置及电子设备
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质
CN112291083B (zh) 数据处理方法、装置及设备
CN111130919B (zh) 一种接口监控方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant