CN105791016A - 一种基于流式计算的分布式故障管理告警处理系统 - Google Patents

一种基于流式计算的分布式故障管理告警处理系统 Download PDF

Info

Publication number
CN105791016A
CN105791016A CN201610131843.4A CN201610131843A CN105791016A CN 105791016 A CN105791016 A CN 105791016A CN 201610131843 A CN201610131843 A CN 201610131843A CN 105791016 A CN105791016 A CN 105791016A
Authority
CN
China
Prior art keywords
alarm
node
fault management
processing system
streaming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610131843.4A
Other languages
English (en)
Inventor
朱冰
韩全磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Communication Information System Co Ltd
Original Assignee
Inspur Communication Information System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Communication Information System Co Ltd filed Critical Inspur Communication Information System Co Ltd
Priority to CN201610131843.4A priority Critical patent/CN105791016A/zh
Publication of CN105791016A publication Critical patent/CN105791016A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/042Network management architectures or arrangements comprising distributed management centres cooperatively managing the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于流式计算的分布式故障管理告警处理系统,该故障管理告警处理系统包含一个告警流式计算框架、多个针对告警数据处理的业务节点、分布式管理模块;告警流式计算框架驱动数据流转,并维护一个业务节点组成的逻辑拓扑;多个业务节点包含所有故障管理告警处理的所有业务,不同的业务节点之间根据数据不同存在不同的告警消息通道。本发明降低了现有系统处理告警时各种业务的耦合,使得各种业务的处理更加细化,提高了告警的并发处理能力,能有效应对告警风暴的发生,可方便及时的定位出风暴故障点,缩短重大故障排障时长,提升重大网络故障的处理效率。

Description

一种基于流式计算的分布式故障管理告警处理系统
技术领域
本发明涉及计算机故障警告技术领域,具体地说是一种基于流式计算的分布式故障管理告警处理系统。
背景技术
移动通信网络故障管理系统经历了从专业网管向集中故障管理的演进,所管理的网络规模也从2G扩展到现在的3/4G、WLAN等,所管理网络规模已经翻倍再翻倍。
截止2015年12月底,某省集中化故障管理系统的日均处理告警量已经达到230万,相对于上年同期增长了27.8%,需经过8到12步系统内部操作,每条传输类告警需在集中化故障管理系统中经历14步处理才最终派单到告警处理人员手中,还要满足及时性要求。相应的,集中化故障管理系统也从小型机架构发展成分布式系统架构,一方面降低硬件成本,另一方面还可应对不断增加的业务量。面对如此数据量的增加现有的系统和处理模式时常发生告警处理缓慢、延时甚至积压的问题。这对故障管理这类实时性、可靠性要求极高的故障管理系统来说,是很大的问题。
在大数据分析和云计算快速发展的今天,通信网络管理系统需要新的技术来进行实现。集中化故障管理系统具有瞬间处理大量网络告警数据、处理步骤复杂、跨系统消费数据、实时性要求高的特点,符合大数据流计算的应用场景。
发明内容
本发明的技术任务是提供一种基于流式计算的分布式故障管理告警处理系统。
本发明的技术任务是按以下方式实现的,该故障管理告警处理系统包含一个告警流式计算框架、多个针对告警数据处理的业务节点、分布式管理模块;
告警流式计算框架驱动数据流转,并维护一个业务节点组成的逻辑拓扑;
多个业务节点包含所有故障管理告警处理的所有业务,不同的业务节点之间根据数据不同存在不同的告警消息通道。
所述的告警数据是按照批量的方式注入到系统中,并将告警数据进行分类,按照分类在不同的业务节点进行流转。
所述的业务节点之间按照不同的消息类型进行联通,下游业务节点接受上游业务节点的告警消息,上游业务节点和下游业务节点保持着对应的告警消息通道。
所述的业务节点单独进行升级,而不影响其他业务节点和整个拓扑使用。
故障管理告警处理流程如下:
当活动告警注入系统,开始辨识消息类型,确认了为活动告警之后根据逻辑拓扑事先订阅的消息类型,从上游业务节点发送到订阅活动消息的下游业务节点进行处理,在下游业务节点处理过程中判断是否生成新的数据类型,如果生成新的数据类型则重新对消息类型进行辨识,并发送到活动告警消息订阅的下游业务节点进行处理;如果没有新的数据生成则该活动告警消息继续往下进行处理,发送到当前业务节点的下游业务节点,直到处理消息完成。
本发明的一种基于流式计算的分布式故障管理告警处理系统和现有技术相比,降低了现有系统处理告警时各种业务的耦合,使得各种业务的处理更加细化,再结合单个业务节点的多任务机制,提高了告警的并发处理能力。利用这个架构告警处理峰值可以轻松从每秒千条上升到每秒万条级别,有效应对告警风暴的发生,可方便及时的定位出风暴故障点,缩短重大故障排障时长,提升重大网络故障的处理效率,为故障抢修争取了宝贵时间。
附图说明
图1为一种基于流式计算的分布式故障管理告警处理系统的拓扑示意图。
图2为一种基于流式计算的分布式故障管理告警处理系统的业务节点多任务并发示意图。
图3为一种基于流式计算的分布式故障管理告警处理系统的告警消息处理流程图。
具体实施方式
实施例1:
该基于流式计算的分布式故障管理告警处理系统包含一个告警流式计算框架、多个针对告警数据处理的业务节点、分布式管理模块;
告警流式计算框架驱动数据流转,并维护一个业务节点组成的逻辑拓扑;告警流式计算框架由处理告警的各个业务节点组成,每个业务节点功能是专一的;多个业务节点包含所有故障管理告警处理的所有业务,不同的业务节点之间根据数据不同存在不同的告警消息通道。每种告警消息按照预先设定的消息类型经过不同的路径进行处理从而组成告警处理的拓扑。
所述的告警数据是按照批量的方式注入到系统中,并将告警数据进行分类,按照分类在不同的业务节点进行流转。告警在流式处理系统中的消息分类是:活动告警消息、清除告警消息、确认告警消息、自处理告警消息、工单消息、专业内关联消息;消息细分工单消息包括工单状态更新同步;专业内关联包括主次关联消息、衍生关联消息。
所述的业务节点之间按照不同的消息类型进行联通,下游业务节点接受上游业务节点的告警消息,上游业务节点和下游业务节点保持着对应的告警消息通道;业务节点单独进行升级,而不影响其他业务节点和整个拓扑使用。
故障管理告警处理流程如下:
当活动告警注入系统,开始辨识消息类型,确认了为活动告警之后根据逻辑拓扑事先订阅的消息类型,从上游业务节点发送到订阅活动消息的下游业务节点进行处理,在下游业务节点处理过程中判断是否生成新的数据类型,如果生成新的数据类型则重新对消息类型进行辨识,并发送到活动告警消息订阅的下游业务节点进行处理;如果没有新的数据生成则该活动告警消息继续往下进行处理,发送到当前业务节点的下游业务节点,直到处理消息完成。
流式计算的框架的运行模式,从数据注入数据流,一个数据流被定义为一个tuple,数据流流入不同处理业务节点进行业务处理然后继续流向下面的业务节点或者生成新的tuple流向下方业务节点。这样把告警的处理过程分成了很多个小的业务节点,提高了告警的处理速度。流式计算告警处理系统采用集群多任务机制用于多任务管理模块,每个业务节点是分布式多进程多线程多任务的方式,同一个业务节点会在不同的服务器上部署组成集群,提高了任务的并发能力。同时告警数据的注入是按照批量的方式也就是一个连续的tuple,进一步提高了告警的处理能力。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (5)

1.一种基于流式计算的分布式故障管理告警处理系统,其特征在于,该故障管理告警处理系统包含一个告警流式计算框架、多个针对告警数据处理的业务节点、分布式管理模块;
告警流式计算框架驱动数据流转,并维护一个业务节点组成的逻辑拓扑;
多个业务节点包含所有故障管理告警处理的所有业务,不同的业务节点之间根据数据不同存在不同的告警消息通道。
2.根据权利要求1所述的一种基于流式计算的分布式故障管理告警处理系统,其特征在于,所述的告警数据是按照批量的方式注入到系统中,并将告警数据进行分类,按照分类在不同的业务节点进行流转。
3.根据权利要求1所述的一种基于流式计算的分布式故障管理告警处理系统,其特征在于,所述的业务节点之间按照不同的消息类型进行联通,下游业务节点接受上游业务节点的告警消息,上游业务节点和下游业务节点保持着对应的告警消息通道。
4.根据权利要求1所述的一种基于流式计算的分布式故障管理告警处理系统,其特征在于,所述的业务节点单独进行升级,而不影响其他业务节点和整个拓扑使用。
5.根据权利要求1所述的一种基于流式计算的分布式故障管理告警处理系统,其特征在于,故障管理告警处理流程如下:
当活动告警注入系统,开始辨识消息类型,确认了为活动告警之后根据逻辑拓扑事先订阅的消息类型,从上游业务节点发送到订阅活动消息的下游业务节点进行处理,在下游业务节点处理过程中判断是否生成新的数据类型,如果生成新的数据类型则重新对消息类型进行辨识,并发送到活动告警消息订阅的下游业务节点进行处理;如果没有新的数据生成则该活动告警消息继续往下进行处理,发送到当前业务节点的下游业务节点,直到处理消息完成。
CN201610131843.4A 2016-03-09 2016-03-09 一种基于流式计算的分布式故障管理告警处理系统 Pending CN105791016A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610131843.4A CN105791016A (zh) 2016-03-09 2016-03-09 一种基于流式计算的分布式故障管理告警处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610131843.4A CN105791016A (zh) 2016-03-09 2016-03-09 一种基于流式计算的分布式故障管理告警处理系统

Publications (1)

Publication Number Publication Date
CN105791016A true CN105791016A (zh) 2016-07-20

Family

ID=56387287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610131843.4A Pending CN105791016A (zh) 2016-03-09 2016-03-09 一种基于流式计算的分布式故障管理告警处理系统

Country Status (1)

Country Link
CN (1) CN105791016A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526706A (zh) * 2017-08-04 2017-12-29 北京奇虎科技有限公司 一种分布式计算平台中的数据处理方法和装置
CN110460495A (zh) * 2019-08-01 2019-11-15 北京百度网讯科技有限公司 一种水位推进方法、装置、计算节点及存储介质
CN110795215A (zh) * 2018-08-01 2020-02-14 阿里巴巴集团控股有限公司 一种数据处理方法、计算机设备、存储介质
CN113544548A (zh) * 2019-03-06 2021-10-22 古野电气株式会社 云观测装置、云观测方法及程序
CN114862401A (zh) * 2022-03-11 2022-08-05 山东浪潮通软信息科技有限公司 一种支付异常的处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020029266A1 (en) * 2000-09-07 2002-03-07 Edwin Tse Parallel processing architecture for alarm management network entities
CN1635551A (zh) * 2003-12-30 2005-07-06 上海贝尔阿尔卡特股份有限公司 通用多层次告警处理方法
CN102546216A (zh) * 2010-12-30 2012-07-04 中国移动通信集团山东有限公司 网络管理系统中的告警消息处理方法及网络管理系统
CN102625349A (zh) * 2012-03-09 2012-08-01 浪潮通信信息系统有限公司 一种告警风暴下的数据处理方法
CN104506373A (zh) * 2015-01-07 2015-04-08 国家计算机网络与信息安全管理中心 网络信息采集与处理的装置和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020029266A1 (en) * 2000-09-07 2002-03-07 Edwin Tse Parallel processing architecture for alarm management network entities
CN1635551A (zh) * 2003-12-30 2005-07-06 上海贝尔阿尔卡特股份有限公司 通用多层次告警处理方法
CN102546216A (zh) * 2010-12-30 2012-07-04 中国移动通信集团山东有限公司 网络管理系统中的告警消息处理方法及网络管理系统
CN102625349A (zh) * 2012-03-09 2012-08-01 浪潮通信信息系统有限公司 一种告警风暴下的数据处理方法
CN104506373A (zh) * 2015-01-07 2015-04-08 国家计算机网络与信息安全管理中心 网络信息采集与处理的装置和方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526706A (zh) * 2017-08-04 2017-12-29 北京奇虎科技有限公司 一种分布式计算平台中的数据处理方法和装置
CN107526706B (zh) * 2017-08-04 2021-07-13 北京奇虎科技有限公司 一种分布式计算平台中的数据处理方法和装置
CN110795215A (zh) * 2018-08-01 2020-02-14 阿里巴巴集团控股有限公司 一种数据处理方法、计算机设备、存储介质
CN110795215B (zh) * 2018-08-01 2024-08-20 阿里巴巴集团控股有限公司 一种数据处理方法、计算机设备、存储介质
CN113544548A (zh) * 2019-03-06 2021-10-22 古野电气株式会社 云观测装置、云观测方法及程序
US11989907B2 (en) 2019-03-06 2024-05-21 Furuno Electric Co., Ltd. Cloud observation device, cloud observation method, and program
CN110460495A (zh) * 2019-08-01 2019-11-15 北京百度网讯科技有限公司 一种水位推进方法、装置、计算节点及存储介质
CN110460495B (zh) * 2019-08-01 2024-02-23 北京百度网讯科技有限公司 一种水位推进方法、装置、计算节点及存储介质
CN114862401A (zh) * 2022-03-11 2022-08-05 山东浪潮通软信息科技有限公司 一种支付异常的处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN105791016A (zh) 一种基于流式计算的分布式故障管理告警处理系统
CN104468819A (zh) 一种物联网消息推送系统及其方法
CN103179046A (zh) 基于openflow的数据中心流量控制方法及系统
CN105684382A (zh) 报文的控制方法、交换机及控制器
CN102823205A (zh) 聚合来自接入域的数据业务
CN102291324A (zh) 高并发业务请求处理方法
CN107872339B (zh) 一种虚拟化网络中的运维实现方法及装置、虚拟网络系统
CN101110820B (zh) 一种处理生成树协议报文的方法和交换机
CN106844083A (zh) 一种面向流计算系统异常感知的容错方法及系统
US20220166842A1 (en) Data distribution method and electronic device
CN101282242B (zh) 一种电信网络服务质量监测系统和方法
CN105071986B (zh) 一种监控系统运行状态的方法
CN113821361A (zh) 一种基于流式处理的物联网平台消息处理方法和系统
CN106302621B (zh) 一种消息通知方法和设备
CN103222230A (zh) 组播复制方法、装置及系统
CN112202932A (zh) 一种基于边缘计算的对视频进行结构化分析的方法及装置
Wu et al. RXstp: A topology discovery mechanism based on rapid spanning tree for SDN in-band control
CN114257513B (zh) 一种多元数据策略完善方法及装置
CN112256454B (zh) 消息延时处理方法和系统
CN104270433B (zh) 基于复杂包交换系统的分布式ssm协议处理系统及方法
CN113794632A (zh) 一种网络保护方法及装置
CN107908370A (zh) 数据存储方法及装置
CN111431930A (zh) 流量清洗方法及相关设备
CN105553689B (zh) 一种openflow消息中流规则等价快速判定方法
WO2024103983A1 (zh) 一种分布式分发系统部署、分发方法、系统、装置及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160720