CN105791016A - 一种基于流式计算的分布式故障管理告警处理系统 - Google Patents
一种基于流式计算的分布式故障管理告警处理系统 Download PDFInfo
- Publication number
- CN105791016A CN105791016A CN201610131843.4A CN201610131843A CN105791016A CN 105791016 A CN105791016 A CN 105791016A CN 201610131843 A CN201610131843 A CN 201610131843A CN 105791016 A CN105791016 A CN 105791016A
- Authority
- CN
- China
- Prior art keywords
- alarm
- node
- fault management
- processing system
- streaming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 28
- 238000011144 upstream manufacturing Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 4
- 230000008878 coupling Effects 0.000 abstract description 2
- 238000010168 coupling process Methods 0.000 abstract description 2
- 238000005859 coupling reaction Methods 0.000 abstract description 2
- 230000026676 system process Effects 0.000 abstract 1
- 238000007726 management method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
- H04L41/042—Network management architectures or arrangements comprising distributed management centres cooperatively managing the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于流式计算的分布式故障管理告警处理系统,该故障管理告警处理系统包含一个告警流式计算框架、多个针对告警数据处理的业务节点、分布式管理模块;告警流式计算框架驱动数据流转,并维护一个业务节点组成的逻辑拓扑;多个业务节点包含所有故障管理告警处理的所有业务,不同的业务节点之间根据数据不同存在不同的告警消息通道。本发明降低了现有系统处理告警时各种业务的耦合,使得各种业务的处理更加细化,提高了告警的并发处理能力,能有效应对告警风暴的发生,可方便及时的定位出风暴故障点,缩短重大故障排障时长,提升重大网络故障的处理效率。
Description
技术领域
本发明涉及计算机故障警告技术领域,具体地说是一种基于流式计算的分布式故障管理告警处理系统。
背景技术
移动通信网络故障管理系统经历了从专业网管向集中故障管理的演进,所管理的网络规模也从2G扩展到现在的3/4G、WLAN等,所管理网络规模已经翻倍再翻倍。
截止2015年12月底,某省集中化故障管理系统的日均处理告警量已经达到230万,相对于上年同期增长了27.8%,需经过8到12步系统内部操作,每条传输类告警需在集中化故障管理系统中经历14步处理才最终派单到告警处理人员手中,还要满足及时性要求。相应的,集中化故障管理系统也从小型机架构发展成分布式系统架构,一方面降低硬件成本,另一方面还可应对不断增加的业务量。面对如此数据量的增加现有的系统和处理模式时常发生告警处理缓慢、延时甚至积压的问题。这对故障管理这类实时性、可靠性要求极高的故障管理系统来说,是很大的问题。
在大数据分析和云计算快速发展的今天,通信网络管理系统需要新的技术来进行实现。集中化故障管理系统具有瞬间处理大量网络告警数据、处理步骤复杂、跨系统消费数据、实时性要求高的特点,符合大数据流计算的应用场景。
发明内容
本发明的技术任务是提供一种基于流式计算的分布式故障管理告警处理系统。
本发明的技术任务是按以下方式实现的,该故障管理告警处理系统包含一个告警流式计算框架、多个针对告警数据处理的业务节点、分布式管理模块;
告警流式计算框架驱动数据流转,并维护一个业务节点组成的逻辑拓扑;
多个业务节点包含所有故障管理告警处理的所有业务,不同的业务节点之间根据数据不同存在不同的告警消息通道。
所述的告警数据是按照批量的方式注入到系统中,并将告警数据进行分类,按照分类在不同的业务节点进行流转。
所述的业务节点之间按照不同的消息类型进行联通,下游业务节点接受上游业务节点的告警消息,上游业务节点和下游业务节点保持着对应的告警消息通道。
所述的业务节点单独进行升级,而不影响其他业务节点和整个拓扑使用。
故障管理告警处理流程如下:
当活动告警注入系统,开始辨识消息类型,确认了为活动告警之后根据逻辑拓扑事先订阅的消息类型,从上游业务节点发送到订阅活动消息的下游业务节点进行处理,在下游业务节点处理过程中判断是否生成新的数据类型,如果生成新的数据类型则重新对消息类型进行辨识,并发送到活动告警消息订阅的下游业务节点进行处理;如果没有新的数据生成则该活动告警消息继续往下进行处理,发送到当前业务节点的下游业务节点,直到处理消息完成。
本发明的一种基于流式计算的分布式故障管理告警处理系统和现有技术相比,降低了现有系统处理告警时各种业务的耦合,使得各种业务的处理更加细化,再结合单个业务节点的多任务机制,提高了告警的并发处理能力。利用这个架构告警处理峰值可以轻松从每秒千条上升到每秒万条级别,有效应对告警风暴的发生,可方便及时的定位出风暴故障点,缩短重大故障排障时长,提升重大网络故障的处理效率,为故障抢修争取了宝贵时间。
附图说明
图1为一种基于流式计算的分布式故障管理告警处理系统的拓扑示意图。
图2为一种基于流式计算的分布式故障管理告警处理系统的业务节点多任务并发示意图。
图3为一种基于流式计算的分布式故障管理告警处理系统的告警消息处理流程图。
具体实施方式
实施例1:
该基于流式计算的分布式故障管理告警处理系统包含一个告警流式计算框架、多个针对告警数据处理的业务节点、分布式管理模块;
告警流式计算框架驱动数据流转,并维护一个业务节点组成的逻辑拓扑;告警流式计算框架由处理告警的各个业务节点组成,每个业务节点功能是专一的;多个业务节点包含所有故障管理告警处理的所有业务,不同的业务节点之间根据数据不同存在不同的告警消息通道。每种告警消息按照预先设定的消息类型经过不同的路径进行处理从而组成告警处理的拓扑。
所述的告警数据是按照批量的方式注入到系统中,并将告警数据进行分类,按照分类在不同的业务节点进行流转。告警在流式处理系统中的消息分类是:活动告警消息、清除告警消息、确认告警消息、自处理告警消息、工单消息、专业内关联消息;消息细分工单消息包括工单状态更新同步;专业内关联包括主次关联消息、衍生关联消息。
所述的业务节点之间按照不同的消息类型进行联通,下游业务节点接受上游业务节点的告警消息,上游业务节点和下游业务节点保持着对应的告警消息通道;业务节点单独进行升级,而不影响其他业务节点和整个拓扑使用。
故障管理告警处理流程如下:
当活动告警注入系统,开始辨识消息类型,确认了为活动告警之后根据逻辑拓扑事先订阅的消息类型,从上游业务节点发送到订阅活动消息的下游业务节点进行处理,在下游业务节点处理过程中判断是否生成新的数据类型,如果生成新的数据类型则重新对消息类型进行辨识,并发送到活动告警消息订阅的下游业务节点进行处理;如果没有新的数据生成则该活动告警消息继续往下进行处理,发送到当前业务节点的下游业务节点,直到处理消息完成。
流式计算的框架的运行模式,从数据注入数据流,一个数据流被定义为一个tuple,数据流流入不同处理业务节点进行业务处理然后继续流向下面的业务节点或者生成新的tuple流向下方业务节点。这样把告警的处理过程分成了很多个小的业务节点,提高了告警的处理速度。流式计算告警处理系统采用集群多任务机制用于多任务管理模块,每个业务节点是分布式多进程多线程多任务的方式,同一个业务节点会在不同的服务器上部署组成集群,提高了任务的并发能力。同时告警数据的注入是按照批量的方式也就是一个连续的tuple,进一步提高了告警的处理能力。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
Claims (5)
1.一种基于流式计算的分布式故障管理告警处理系统,其特征在于,该故障管理告警处理系统包含一个告警流式计算框架、多个针对告警数据处理的业务节点、分布式管理模块;
告警流式计算框架驱动数据流转,并维护一个业务节点组成的逻辑拓扑;
多个业务节点包含所有故障管理告警处理的所有业务,不同的业务节点之间根据数据不同存在不同的告警消息通道。
2.根据权利要求1所述的一种基于流式计算的分布式故障管理告警处理系统,其特征在于,所述的告警数据是按照批量的方式注入到系统中,并将告警数据进行分类,按照分类在不同的业务节点进行流转。
3.根据权利要求1所述的一种基于流式计算的分布式故障管理告警处理系统,其特征在于,所述的业务节点之间按照不同的消息类型进行联通,下游业务节点接受上游业务节点的告警消息,上游业务节点和下游业务节点保持着对应的告警消息通道。
4.根据权利要求1所述的一种基于流式计算的分布式故障管理告警处理系统,其特征在于,所述的业务节点单独进行升级,而不影响其他业务节点和整个拓扑使用。
5.根据权利要求1所述的一种基于流式计算的分布式故障管理告警处理系统,其特征在于,故障管理告警处理流程如下:
当活动告警注入系统,开始辨识消息类型,确认了为活动告警之后根据逻辑拓扑事先订阅的消息类型,从上游业务节点发送到订阅活动消息的下游业务节点进行处理,在下游业务节点处理过程中判断是否生成新的数据类型,如果生成新的数据类型则重新对消息类型进行辨识,并发送到活动告警消息订阅的下游业务节点进行处理;如果没有新的数据生成则该活动告警消息继续往下进行处理,发送到当前业务节点的下游业务节点,直到处理消息完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610131843.4A CN105791016A (zh) | 2016-03-09 | 2016-03-09 | 一种基于流式计算的分布式故障管理告警处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610131843.4A CN105791016A (zh) | 2016-03-09 | 2016-03-09 | 一种基于流式计算的分布式故障管理告警处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105791016A true CN105791016A (zh) | 2016-07-20 |
Family
ID=56387287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610131843.4A Pending CN105791016A (zh) | 2016-03-09 | 2016-03-09 | 一种基于流式计算的分布式故障管理告警处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105791016A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526706A (zh) * | 2017-08-04 | 2017-12-29 | 北京奇虎科技有限公司 | 一种分布式计算平台中的数据处理方法和装置 |
CN110460495A (zh) * | 2019-08-01 | 2019-11-15 | 北京百度网讯科技有限公司 | 一种水位推进方法、装置、计算节点及存储介质 |
CN110795215A (zh) * | 2018-08-01 | 2020-02-14 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、计算机设备、存储介质 |
CN113544548A (zh) * | 2019-03-06 | 2021-10-22 | 古野电气株式会社 | 云观测装置、云观测方法及程序 |
CN114862401A (zh) * | 2022-03-11 | 2022-08-05 | 山东浪潮通软信息科技有限公司 | 一种支付异常的处理方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020029266A1 (en) * | 2000-09-07 | 2002-03-07 | Edwin Tse | Parallel processing architecture for alarm management network entities |
CN1635551A (zh) * | 2003-12-30 | 2005-07-06 | 上海贝尔阿尔卡特股份有限公司 | 通用多层次告警处理方法 |
CN102546216A (zh) * | 2010-12-30 | 2012-07-04 | 中国移动通信集团山东有限公司 | 网络管理系统中的告警消息处理方法及网络管理系统 |
CN102625349A (zh) * | 2012-03-09 | 2012-08-01 | 浪潮通信信息系统有限公司 | 一种告警风暴下的数据处理方法 |
CN104506373A (zh) * | 2015-01-07 | 2015-04-08 | 国家计算机网络与信息安全管理中心 | 网络信息采集与处理的装置和方法 |
-
2016
- 2016-03-09 CN CN201610131843.4A patent/CN105791016A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020029266A1 (en) * | 2000-09-07 | 2002-03-07 | Edwin Tse | Parallel processing architecture for alarm management network entities |
CN1635551A (zh) * | 2003-12-30 | 2005-07-06 | 上海贝尔阿尔卡特股份有限公司 | 通用多层次告警处理方法 |
CN102546216A (zh) * | 2010-12-30 | 2012-07-04 | 中国移动通信集团山东有限公司 | 网络管理系统中的告警消息处理方法及网络管理系统 |
CN102625349A (zh) * | 2012-03-09 | 2012-08-01 | 浪潮通信信息系统有限公司 | 一种告警风暴下的数据处理方法 |
CN104506373A (zh) * | 2015-01-07 | 2015-04-08 | 国家计算机网络与信息安全管理中心 | 网络信息采集与处理的装置和方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526706A (zh) * | 2017-08-04 | 2017-12-29 | 北京奇虎科技有限公司 | 一种分布式计算平台中的数据处理方法和装置 |
CN107526706B (zh) * | 2017-08-04 | 2021-07-13 | 北京奇虎科技有限公司 | 一种分布式计算平台中的数据处理方法和装置 |
CN110795215A (zh) * | 2018-08-01 | 2020-02-14 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、计算机设备、存储介质 |
CN110795215B (zh) * | 2018-08-01 | 2024-08-20 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、计算机设备、存储介质 |
CN113544548A (zh) * | 2019-03-06 | 2021-10-22 | 古野电气株式会社 | 云观测装置、云观测方法及程序 |
US11989907B2 (en) | 2019-03-06 | 2024-05-21 | Furuno Electric Co., Ltd. | Cloud observation device, cloud observation method, and program |
CN110460495A (zh) * | 2019-08-01 | 2019-11-15 | 北京百度网讯科技有限公司 | 一种水位推进方法、装置、计算节点及存储介质 |
CN110460495B (zh) * | 2019-08-01 | 2024-02-23 | 北京百度网讯科技有限公司 | 一种水位推进方法、装置、计算节点及存储介质 |
CN114862401A (zh) * | 2022-03-11 | 2022-08-05 | 山东浪潮通软信息科技有限公司 | 一种支付异常的处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105791016A (zh) | 一种基于流式计算的分布式故障管理告警处理系统 | |
CN104468819A (zh) | 一种物联网消息推送系统及其方法 | |
CN103179046A (zh) | 基于openflow的数据中心流量控制方法及系统 | |
CN105684382A (zh) | 报文的控制方法、交换机及控制器 | |
CN102823205A (zh) | 聚合来自接入域的数据业务 | |
CN102291324A (zh) | 高并发业务请求处理方法 | |
CN107872339B (zh) | 一种虚拟化网络中的运维实现方法及装置、虚拟网络系统 | |
CN101110820B (zh) | 一种处理生成树协议报文的方法和交换机 | |
CN106844083A (zh) | 一种面向流计算系统异常感知的容错方法及系统 | |
US20220166842A1 (en) | Data distribution method and electronic device | |
CN101282242B (zh) | 一种电信网络服务质量监测系统和方法 | |
CN105071986B (zh) | 一种监控系统运行状态的方法 | |
CN113821361A (zh) | 一种基于流式处理的物联网平台消息处理方法和系统 | |
CN106302621B (zh) | 一种消息通知方法和设备 | |
CN103222230A (zh) | 组播复制方法、装置及系统 | |
CN112202932A (zh) | 一种基于边缘计算的对视频进行结构化分析的方法及装置 | |
Wu et al. | RXstp: A topology discovery mechanism based on rapid spanning tree for SDN in-band control | |
CN114257513B (zh) | 一种多元数据策略完善方法及装置 | |
CN112256454B (zh) | 消息延时处理方法和系统 | |
CN104270433B (zh) | 基于复杂包交换系统的分布式ssm协议处理系统及方法 | |
CN113794632A (zh) | 一种网络保护方法及装置 | |
CN107908370A (zh) | 数据存储方法及装置 | |
CN111431930A (zh) | 流量清洗方法及相关设备 | |
CN105553689B (zh) | 一种openflow消息中流规则等价快速判定方法 | |
WO2024103983A1 (zh) | 一种分布式分发系统部署、分发方法、系统、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160720 |