CN114884798A - 跨专业故障分析方法、装置及系统 - Google Patents

跨专业故障分析方法、装置及系统 Download PDF

Info

Publication number
CN114884798A
CN114884798A CN202210481466.2A CN202210481466A CN114884798A CN 114884798 A CN114884798 A CN 114884798A CN 202210481466 A CN202210481466 A CN 202210481466A CN 114884798 A CN114884798 A CN 114884798A
Authority
CN
China
Prior art keywords
professional
alarm data
fault
thread
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210481466.2A
Other languages
English (en)
Other versions
CN114884798B (zh
Inventor
张冬月
韩赛
王光全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202210481466.2A priority Critical patent/CN114884798B/zh
Publication of CN114884798A publication Critical patent/CN114884798A/zh
Application granted granted Critical
Publication of CN114884798B publication Critical patent/CN114884798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0622Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on time

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本发明提供一种跨专业故障分析方法、装置及系统,涉及网络故障自动诊断技术领域,所述方法包括:采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据;采用第一线程根据所述第一专业告警数据发出跨专业故障事件;采用第三线程监听所述跨专业故障事件,根据监听到的跨专业故障事件调取相应的第二专业告警数据,分析调取的第二专业告警数据以获得相应的跨专业故障分析结果。本发明可对跨专业网络故障实时、精准地定位其最根本的故障原因,有效提高跨专业故障处理的速度,提高网络运维效率。

Description

跨专业故障分析方法、装置及系统
技术领域
本发明涉及网络故障自动诊断技术领域,尤其涉及一种跨专业故障分析方法、装置及系统。
背景技术
随着网络规模的扩大以及5G(第五代移动通信技术,5th-Generation MobileCommunication Technology)应用的爆发式增长,网络运维也迎来新的需求和挑战。传统的运维方式以人工操作为主,跨专业解决问题能力较弱,网络资源利用率低、故障定位难。
在网络故障自动诊断领域,由于运营商网络分层分专业,具有多层承载关系,底层故障具有向上层传递的可能,仅通过专业网络内的自动诊断能力,难以直接找到最根本的故障原因。目前跨专业网络故障定位,主要依赖各专业运维人员分别进行分析定位,并分别派发故障工单,导致重复而庞杂的故障工单,增加网络维护人力成本,故障处理时间长、效率低,是当前网络运维工作的主要痛点之一。
发明内容
本发明所要解决的技术问题是针对现有技术的上述不足,提供一种跨专业故障分析方法、装置及系统,以解决现有技术对跨专业网络故障主要依赖各专业运维人员分别进行分析定位,导致网络维护人力成本高,故障处理时间长、效率低,且难以找到最根本的故障原因的问题。
第一方面,本发明提供一种跨专业故障分析方法,包括:
采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据;
采用第一线程根据所述第一专业告警数据发出跨专业故障事件;
采用第三线程监听所述跨专业故障事件,根据监听到的跨专业故障事件调取相应的第二专业告警数据,分析调取的第二专业告警数据以获得相应的跨专业故障分析结果。
优选地,所述第一专业告警数据具体为:IPRAN告警数据;
所述第二专业告警数据具体为:光传送网OTN告警数据。
优选地,所述采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据,具体包括:
在客户端开启第一线程和第二线程;
采用所述第一线程利用kafka消费者从kafka集群实时读取第一专业告警数据;
采用所述第二线程利用kafka消费者从kafka集群实时读取第二专业告警数据;
其中,所述第一专业告警数据/第二专业告警数据是由数据平台实时采集,并利用kafka生产者发送给所述kafka集群的。
优选地,所述采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据之后,所述方法还包括:
采用第一线程/第二线程对时间间隔小于第一预设时长的连续多条同一告警名称、同一网元、同一板卡、同一端口的第一专业告警数据/第二专业告警数据,删除除第一条之外的第一专业告警数据/第二专业告警数据;
采用第一线程/第二线程检查每条第一专业告警数据/第二专业告警数据的日期,当日期不为当前日期时,删除该条第一专业告警数据/第二专业告警数据;
采用第一线程/第二线程判断每条第一专业告警数据/第二专业告警数据是否与预设的专家经验库匹配,如果否,删除该条第一专业告警数据/第二专业告警数据;
采用第一线程/第二线程将剩下的第一专业告警数据/第二专业告警数据存储在全局变量中。
优选地,所述根据所述第一专业告警数据发出跨专业故障事件,具体包括:
根据预设的规则采集所述第一专业告警数据中产生跨专业故障的第一根因告警数据;
根据所述第一根因告警数据发出所述跨专业故障事件。
优选地,所述预设的规则,具体包括:
预设的专家规则和/或预设的在专家规则的基础上利用关联规则算法形成的规则。
优选地,所述根据预设的规则采集所述第一专业告警数据中产生跨专业故障的第一根因告警数据,具体包括:
根据所述预设的规则采集所述第一专业告警数据中产生跨专业故障的第一条第一根因告警数据;
当采集到第一条第一根因告警数据后,在第二预设时长内继续采集第一根因告警数据;
直至第一专业告警数据中不再产生第一根因告警数据或者达到所述第二预设时长,停止采集并得到本次采集的全部第一根因告警数据。
优选地,所述采用第三线程监听所述跨专业故障事件,根据监听到的跨专业故障事件调取相应的第二专业告警数据,分析调取的第二专业告警数据以获得相应的跨专业故障分析结果,具体包括:
开启第三线程监听跨专业故障事件,当监听到跨专业故障事件时,获取监听到的跨专业故障事件所述第一根因告警数据的发生时间;
采用第三线程调取发生时间与所述第一根因告警数据的发生时间相差不超过第三预设时长的第二专业告警数据;
采用第三线程分析调取的第二专业告警数据,以获得所述第一根因告警数据在所述第二专业内对应的故障类型和故障位置。
优选地,所述采用第三线程分析调取的第二专业告警数据,以获得所述第一根因告警数据在所述第二专业内对应的故障类型和故障位置,具体包括:
采用第三线程对调取的第二专业告警数据进行分析,根据所述预设的规则,采集第二专业告警数据的第二根因告警数据;
根据所述第二根因告警数据中的告警名称和故障网元、板卡与端口,获得所述第一根因告警数据在所述第二专业内对应的故障类型,所述故障类型包括:电源故障、设备脱管、光缆中断、光信号丢失中的一种;
若所述故障类型为光缆中断故障类型,则根据预先获得的网络拓扑信息定位故障位置,若所述故障类型为除光缆中断故障类型之外的其他故障类型,则根据调取的第二专业告警数据根据其中的故障网元、板卡与端口定位故障位置。
优选地,所述若所述故障类型为光缆中断故障类型,则根据预先获得的网络拓扑信息定位故障位置,具体包括:
将预先获得的网络拓扑信息转化成图结构,所述网络拓扑信息由数据平台定期更新并发送给所述第三线程;
若所述故障类型为光缆中断故障类型,获取调取的第二专业告警数据中涉及的全部告警网元;
使用图形搜索算法,搜索所述图结构中只包含告警网元的非连通子图;
根据搜索到的非连通子图定位光缆中断的故障位置,故障位置为各告警网元之间连接的光缆。
第二方面,本发明提供一种跨专业故障分析装置,包括:
数据模块,用于采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据;
事件模块,与所述数据模块连接,用于采用第一线程根据所述第一专业告警数据发出跨专业故障事件;
结果模块,与所述事件模块连接,用于采用第三线程监听所述跨专业故障事件,根据监听到的跨专业故障事件调取相应的第二专业告警数据,分析调取的第二专业告警数据以获得相应的跨专业故障分析结果。
第三方面,本发明提供一种跨专业故障分析装置,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行如上所述的跨专业故障分析方法。
第四方面,本发明提供一种跨专业故障分析系统,包括:
客户端,用于执行如上所述的跨专业故障分析方法;
kafka集群,与所述客户端连接,用于接收、存储、发送所述第一专业告警数据和所述第二专业告警数据;
数据平台,与所述kafka集群连接,用于实时采集所述第一专业告警数据和所述第二专业告警数据,并发送给所述kafka集群。
本发明提供一种跨专业故障分析方法、装置及系统,针对不同专业的告警数据分别采用不同线程进行处理,并采用一个单独的线程监听跨专业故障事件并进行跨专业故障分析,可对跨专业网络故障实时、精准地定位其最根本的故障原因,有效提高跨专业故障处理的速度,提高网络运维效率,降低网络维护人力成本。
附图说明
图1是本发明实施例一种跨专业故障分析方法的流程图;
图2是本发明实施例一种跨专业故障分析系统的结构示意图;
图3是本发明实施例一种跨专业故障分析装置的结构示意图;
图4是本发明另一实施例一种跨专业故障分析装置的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面将结合附图对本发明实施方式作进一步地详细描述。
可以理解的是,此处描述的具体实施例和附图仅仅用于解释本发明,而非对本发明的限定。
可以理解的是,在不冲突的情况下,本发明中的各实施例及实施例中的各特征可相互组合。
可以理解的是,为便于描述,本发明的附图中仅示出了与本发明相关的部分,而与本发明无关的部分未在附图中示出。
可以理解的是,本发明的实施例中所涉及的每个单元、模块可仅对应一个实体结构,也可由多个实体结构组成,或者,多个单元、模块也可集成为一个实体结构。
可以理解的是,在不冲突的情况下,本发明的流程图和框图中所标注的功能、步骤可按照不同于附图中所标注的顺序发生。
可以理解的是,本发明的流程图和框图中,示出了按照本发明各实施例的系统、装置、设备、方法的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可代表一个单元、模块、程序段、代码,其包含用于实现规定的功能的可执行指令。而且,框图和流程图中的每个方框或方框的组合,可用实现规定的功能的基于硬件的系统实现,也可用硬件与计算机指令的组合来实现。
可以理解的是,本发明实施例中所涉及的单元、模块可通过软件的方式实现,也可通过硬件的方式来实现,例如单元、模块可位于处理器中。
实施例1:
如图1所示,本发明实施例1提供一种跨专业故障分析方法,具体而言,在本实施例中,该方法为一种多线程跨专业网络故障分析方法,可应用于现网,可实现运营商网络运维工作的自动化智能化升级,所述方法包括:
S11、采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据。
具体而言,在本实施例中,采用多线程模式实现跨专业故障分析,为了实现对不同专业的告警数据读取和处理互不干扰,采用两个线程处理两个专业的告警数据,进而提升整体处理性能。
在一个可选的实施例中,所述第一专业告警数据具体为:IPRAN告警数据;
所述第二专业告警数据具体为:光传送网OTN告警数据。
具体而言,在本实施例中,现网中常见的跨专业故障包括OTN(光传送网,opticaltransport network)故障导致大片IPRAN(基于IP的无线接入网,IP Radio AccessNetwork)网元故障,所以,当接收到IPRAN告警数据时,可能需要分析OTN告警数据,以获得引发IPRAN故障的根本故障原因。除此之外,跨专业故障还包括IPRAN的故障导致基站大面积断站等,因此本申请的方法不止应用于IPRAN和OTN跨专业故障,也可推广到其余跨专业故障定位场景。
在一个可选的实施例中,所述方法具体应用于如图2所示的客户端1,S11、采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据,具体包括:
在客户端1开启第一线程和第二线程;
采用所述第一线程利用kafka消费者从kafka集群2实时读取第一专业告警数据;
采用所述第二线程利用kafka消费者从kafka集群2实时读取第二专业告警数据;
其中,所述第一专业告警数据/第二专业告警数据是由数据平台3实时采集,并利用kafka生产者发送给所述kafka集群2的。
具体而言,在本实施例中,采用kafka(一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中的所有动作流数据)获取跨专业故障分析所需的告警数据,以实现接收告警数据的实时性,进而实现跨专业故障分析的准确性。如图2所示的跨专业故障分析系统获得告警数据的具体流程包括:由现网中的数据平台3负责采集不同专业的告警数据,并利用kafka生产者将不同专业的告警数据发送给kafka集群2,在客户端1中开启多个线程,其中,第一线程利用kafka消费者从kafka集群2实时读取第一实时告警流数据,第二线程利用kafka消费者从kafka集群2实时读取第二实时告警流数据,之后由客户端1利用获得的告警数据进行跨专业故障分析。
在一个可选的实施例中,S11、所述采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据之后,所述方法还包括:
采用第一线程/第二线程对时间间隔小于第一预设时长的连续多条同一告警名称、同一网元、同一板卡、同一端口的第一专业告警数据/第二专业告警数据,删除除第一条之外的第一专业告警数据/第二专业告警数据;
采用第一线程/第二线程检查每条第一专业告警数据/第二专业告警数据的日期,当日期不为当前日期时,删除该条第一专业告警数据/第二专业告警数据;
采用第一线程/第二线程判断每条第一专业告警数据/第二专业告警数据是否与预设的专家经验库匹配,如果否,删除该条第一专业告警数据/第二专业告警数据;
采用第一线程/第二线程将剩下的第一专业告警数据/第二专业告警数据存储在全局变量中。
具体而言,在本实施例中,对告警数据中的频繁告警进行压缩和过滤,具体包括:过滤掉短时间内重复发生的告警、出现日期与当前日期不符的告警、根据专家经验判断为没有价值的衍生告警,不同厂家的设备衍生告警会有差异需要根据专家经验判断,故通过预设的专家经验库对告警数据进行匹配,不匹配的告警数据则判断为没有价值,经过压缩和过滤后的数据保留在全局变量中,便于后续分析时调取数据,对第一专业告警数据和第二专业告警数据采用相同的压缩和过滤规则通过各自所在的线程进行处理。
S12、采用第一线程根据所述第一专业告警数据发出跨专业故障事件。
具体而言,在本实施例中,第一专业告警数据为上层故障告警数据,第二专业告警数据为底层故障告警数据,两者具有多层承载关系,底层故障会向上层传递,因此,获得上层故障告警数据时,如果发现该告警由跨专业故障引发,则需要定位相应的上层故障告警数据,发出包含这些上层故障告警数据信息的跨专业故障事件,用于后续分析底层故障告警数据,以确定引发这些告警的底层故障。
在一个可选的实施例中,S12中所述根据所述第一专业告警数据发出跨专业故障事件,具体包括:
根据预设的规则采集所述第一专业告警数据中产生跨专业故障的第一根因告警数据;
根据所述第一根因告警数据发出所述跨专业故障事件。
具体而言,在本实施例中,发出跨专业故障事件首先需要定位第一专业告警数据中的根因告警数据,根因告警即为由底层故障引发的上层故障告警,在现网中可根据已有的规则定位产生跨专业故障的根因告警,当遇到根因告警时,则发出跨专业故障事件,否则不需要发出跨专业故障事件,发出跨专业故障事件需要定位根因告警的发生时间,以用于后续调取相应时间内的第二专业告警数据作为分析对象。
在一个可选的实施例中,所述预设的规则,具体包括:
预设的专家规则和/或预设的在专家规则的基础上利用关联规则算法形成的规则。
具体而言,在本实施例中,可以根据专家经验直接形成专家规则库,以直接定位相关根因告警;也可以在专家规则库的基础上,利用关联规则算法形成规则,并由相关专家进行确认后获得定位相关根因告警的规则,可实现此功能的关联规则算法有序列模式挖掘算法prefixspan、GSP(Generalized Sequential Patternmining algorithm)等,关联规则算法为本领域已知技术手段,在此不展开论述。
在一个可选的实施例中,所述根据预设的规则采集所述第一专业告警数据中产生跨专业故障的第一根因告警数据,具体包括:
根据所述预设的规则采集所述第一专业告警数据中产生跨专业故障的第一条第一根因告警数据;
当采集到第一条第一根因告警数据后,在第二预设时长内继续采集第一根因告警数据;
直至第一专业告警数据中不再产生第一根因告警数据或者达到所述第二预设时长,停止采集并得到本次采集的全部第一根因告警数据。
具体而言,在本实施例中,当遇到产生跨专业故障的根因告警时,采集相应的根因告警数据需持续一定时间,一般设置为1~2分钟,直到数据流中不再产生根因告警数据,说明已经采集到本组告警的全部根因告警数据,则可以停止采集并发出相应的跨专业故障事件。
S13、采用第三线程监听所述跨专业故障事件,根据监听到的跨专业故障事件调取相应的第二专业告警数据,分析调取的第二专业告警数据以获得相应的跨专业故障分析结果。
具体而言,在本实施例中,第三线程为故障监听线程,开启后一直处于监听的状态,一旦定义的跨专业故障事件发生则触发相应的响应函数,调取相应的第二专业告警数据进行跨专业故障分析,第一线程触发第三线程后,不会造成第一线程和第二线程的中断,三线程同时运行可有效提高跨专业故障处理的速度,提高网络运维效率。
在一个可选的实施例中,S13、所述采用第三线程监听所述跨专业故障事件,根据监听到的跨专业故障事件调取相应的第二专业告警数据,分析调取的第二专业告警数据以获得相应的跨专业故障分析结果,具体包括:
开启第三线程监听跨专业故障事件,当监听到跨专业故障事件时,获取监听到的跨专业故障事件所述第一根因告警数据的发生时间;
采用第三线程调取发生时间与所述第一根因告警数据的发生时间相差不超过第三预设时长的第二专业告警数据;
采用第三线程分析调取的第二专业告警数据,以获得所述第一根因告警数据在所述第二专业内对应的故障类型和故障位置。
具体而言,在本实施例中,由如图2所示的客户端1在开启第一线程和第二线程的同时,开启第三线程,第三线程持续监听第一线程发出的跨专业故障事件,当跨专业故障事件发生时会触发第三线程预设的响应函数,找到与第一专业告警数据中的根因告警发生时间相差不超过1分钟的第二专业告警数据,分析这些第二专业告警数据,获得第一专业告警数据中的根因告警在第二专业内的故障类型和故障位置。
在一个可选的实施例中,所述采用第三线程分析调取的第二专业告警数据,以获得所述第一根因告警数据在所述第二专业内对应的故障类型和故障位置,具体包括:
采用第三线程对调取的第二专业告警数据进行分析,根据所述预设的规则,采集第二专业告警数据的第二根因告警数据;
根据所述第二根因告警数据中的告警名称和故障网元、板卡与端口,获得所述第一根因告警数据在所述第二专业内对应的故障类型,所述故障类型包括:电源故障、设备脱管、光缆中断、光信号丢失中的一种;
若所述故障类型为光缆中断故障类型,则根据预先获得的网络拓扑信息定位故障位置,若所述故障类型为除光缆中断故障类型之外的其他故障类型,则根据调取的第二专业告警数据根据其中的故障网元、板卡与端口定位故障位置。
具体而言,在本实施例中,根据IPRAN告警数据中的根因告警,获得相应的OTN故障类型和故障位置,OTN告警数据中包含告警名称和故障网元、板卡与端口等信息,根据这些信息可以判断的OTN故障类型包括电源故障、设备脱管、光缆中断、光信号丢失等。OTN故障位置的判断方法:当出现光缆中断的故障,告警信息中涉及多个网元时,需要结合网络拓扑进行分析,其余故障可根据告警信息直接判断故障网元、板卡与端口位置。
在一个可选的实施例中,所述若所述故障类型为光缆中断故障类型,则根据预先获得的网络拓扑信息定位故障位置,具体包括:
将预先获得的网络拓扑信息转化成图结构,所述网络拓扑信息由数据平台定期更新并发送给所述第三线程;
若所述故障类型为光缆中断故障类型,获取调取的第二专业告警数据中涉及的全部告警网元;
使用图形搜索算法,搜索所述图结构中只包含告警网元的非连通子图;
根据搜索到的非连通子图定位光缆中断的故障位置,故障位置为各告警网元之间连接的光缆。
具体而言,在本实施例中,图2中的数据平台3还负责定期更新网络拓扑信息,客户端1的第三线程获得最新的网络拓扑信息后,将网络拓扑转化成图结构,使用图形搜索算法,搜索图中只包含告警网元的非连通子图,搜索算法可使用DFS(深度优先算法,Depth-First-Search)或者BFS(广度优先算法,Breadth First Search),即可得到多个网元的拓扑关系,继而可以定位光缆中断的位置。
实施例2:
如图3所示,本发明实施例2一种跨专业故障分析装置,包括:
数据模块11,用于采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据;
事件模块12,与所述数据模块11连接,用于采用第一线程根据所述第一专业告警数据发出跨专业故障事件;
结果模块13,与所述事件模块12连接,用于采用第三线程监听所述跨专业故障事件,根据监听到的跨专业故障事件调取相应的第二专业告警数据,分析调取的第二专业告警数据以获得相应的跨专业故障分析结果。
在一个可选的实施例中,所述第一专业告警数据具体为:IPRAN告警数据;
所述第二专业告警数据具体为:光传送网OTN告警数据。
在一个可选的实施例中,所述装置具体为如图2所示的客户端1,所述数据模块11,具体包括:
第一读取单元,用于采用所述第一线程利用kafka消费者从kafka集群2实时读取第一专业告警数据;
第二读取单元,用于采用所述第二线程利用kafka消费者从kafka集群2实时读取第二专业告警数据;
其中,所述第一专业告警数据/第二专业告警数据是由数据平台3实时采集,并利用kafka生产者发送给所述kafka集群2的。
在一个可选的实施例中,所述装置还包括数据过滤模块,具体包括:
第一过滤单元,用于采用第一线程/第二线程对时间间隔小于第一预设时长的连续多条同一告警名称、同一网元、同一板卡、同一端口的第一专业告警数据/第二专业告警数据,删除除第一条之外的第一专业告警数据/第二专业告警数据;
第二过滤单元,用于采用第一线程/第二线程检查每条第一专业告警数据/第二专业告警数据的日期,当日期不为当前日期时,删除该条第一专业告警数据/第二专业告警数据;
第三过滤单元,用于采用第一线程/第二线程判断每条第一专业告警数据/第二专业告警数据是否与预设的专家经验库匹配,如果否,删除该条第一专业告警数据/第二专业告警数据;
存储单元,用于采用第一线程/第二线程将剩下的第一专业告警数据/第二专业告警数据存储在全局变量中。
在一个可选的实施例中,所述事件模块12,具体包括:
采集单元,用于根据预设的规则采集所述第一专业告警数据中产生跨专业故障的第一根因告警数据;
定位单元,用于根据所述第一根因告警数据发出所述跨专业故障事件。
在一个可选的实施例中,所述采集单元中所述预设的规则,具体包括:
预设的专家规则和/或预设的在专家规则的基础上利用关联规则算法形成的规则。
在一个可选的实施例中,所述采集单元,具体包括:
第一采集子单元,用于根据所述预设的规则采集所述第一专业告警数据中产生跨专业故障的第一条第一根因告警数据;
第二采集子单元,用于当采集到第一条第一根因告警数据后,在第二预设时长内继续采集第一专业告警数据中的其它第一根因告警数据;
停止子单元,用于直至第一专业告警数据中不再产生第一根因告警数据或者达到所述第二预设时长,停止采集并得到本次采集的全部第一根因告警数据。
在一个可选的实施例中,所述结果模块13,具体包括:
监听单元,用于开启第三线程监听跨专业故障事件,当监听到跨专业故障事件时,获取监听到的跨专业故障事件所述第一根因告警数据的发生时间;
调取单元,用于采用第三线程调取发生时间与所述第一根因告警数据的发生时间相差不超过第三预设时长的第二专业告警数据;
分析单元,用于采用第三线程分析调取的第二专业告警数据,以获得所述第一根因告警数据在所述第二专业内对应的故障类型和故障位置。
在一个可选的实施例中,所述分析单元,具体包括:
故障类型子单元,用于采用第三线程对调取的第二专业告警数据进行分析,根据所述预设的规则,采集第二专业告警数据的第二根因告警数据;
根据所述第二根因告警数据中的告警名称和故障网元、板卡与端口,获得所述第一根因告警数据在所述第二专业内对应的故障类型,所述故障类型包括:电源故障、设备脱管、光缆中断、光信号丢失中的一种;
故障位置子单元,用于若所述故障类型为光缆中断故障类型,则根据预先获得的网络拓扑信息定位故障位置,若所述故障类型为除光缆中断故障类型之外的其他故障类型,则根据调取的第二专业告警数据根据其中的故障网元、板卡与端口定位故障位置。
在一个可选的实施例中,所述故障位置子单元,具体包括:光缆中断位置子单元,具体用于:
将预先获得的网络拓扑信息转化成图结构,所述网络拓扑信息由数据平台定期更新并发送给所述第三线程;
若所述故障类型为光缆中断故障类型,获取调取的第二专业告警数据中涉及的全部告警网元;
使用图形搜索算法,搜索所述图结构中只包含告警网元的非连通子图;
根据搜索到的非连通子图定位光缆中断的故障位置,故障位置为各告警网元之间连接的光缆。
实施例3:
如图4所示,本发明实施例3一种跨专业故障分析装置,包括存储器10和处理器20,所述存储器10中存储有计算机程序,当所述处理器20运行所述存储器10存储的计算机程序时,所述处理器20执行如实施例1所述的跨专业故障分析方法。
其中,存储器10与处理器20连接,存储器10可采用闪存或只读存储器或其他存储器,处理器20可采用中央处理器或单片机。
实施例4:
如图2所示,本发明实施例4一种跨专业故障分析系统,包括:
客户端1,用于执行如实施例1所述的跨专业故障分析方法;
kafka集群2,与所述客户端1连接,用于接收、存储、发送所述第一专业告警数据和所述第二专业告警数据;
数据平台3,与所述kafka集群2连接,用于实时采集所述第一专业告警数据和所述第二专业告警数据,并发送给所述kafka集群2。
本发明实施例1-4提供一种跨专业故障分析方法、装置及系统,针对不同专业的告警数据分别采用不同线程进行数据读取和处理,并采用一个单独的线程监听跨专业故障事件并进行跨专业故障分析,可对跨专业网络故障实时、精准地找到其最根本的故障原因,并确定故障类型和定位故障位置,可有效提高跨专业故障处理的速度,减少人力,降低成本,提高网络运维效率,该技术可应用于现网,可用于IPRAN和OTN跨专业故障分析,也可推广到其余跨专业故障定位场景。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (13)

1.一种跨专业故障分析方法,其特征在于,包括:
采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据;
采用第一线程根据所述第一专业告警数据发出跨专业故障事件;
采用第三线程监听所述跨专业故障事件,根据监听到的跨专业故障事件调取相应的第二专业告警数据,分析调取的第二专业告警数据以获得相应的跨专业故障分析结果。
2.根据权利要求1所述的方法,其特征在于,所述第一专业告警数据具体为:IPRAN告警数据;
所述第二专业告警数据具体为:光传送网OTN告警数据。
3.根据权利要求1所述的方法,其特征在于,所述采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据,具体包括:
在客户端开启第一线程和第二线程;
采用所述第一线程利用kafka消费者从kafka集群实时读取第一专业告警数据;
采用所述第二线程利用kafka消费者从kafka集群实时读取第二专业告警数据;
其中,所述第一专业告警数据/第二专业告警数据是由数据平台实时采集,并利用kafka生产者发送给所述kafka集群的。
4.根据权利要求1所述的方法,其特征在于,所述采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据之后,所述方法还包括:
采用第一线程/第二线程对时间间隔小于第一预设时长的连续多条同一告警名称、同一网元、同一板卡、同一端口的第一专业告警数据/第二专业告警数据,删除除第一条之外的第一专业告警数据/第二专业告警数据;
采用第一线程/第二线程检查每条第一专业告警数据/第二专业告警数据的日期,当日期不为当前日期时,删除该条第一专业告警数据/第二专业告警数据;
采用第一线程/第二线程判断每条第一专业告警数据/第二专业告警数据是否与预设的专家经验库匹配,如果否,删除该条第一专业告警数据/第二专业告警数据;
采用第一线程/第二线程将剩下的第一专业告警数据/第二专业告警数据存储在全局变量中。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一专业告警数据发出跨专业故障事件,具体包括:
根据预设的规则采集所述第一专业告警数据中产生跨专业故障的第一根因告警数据;
根据所述第一根因告警数据发出所述跨专业故障事件。
6.根据权利要求5所述的方法,其特征在于,所述预设的规则,具体包括:
预设的专家规则和/或预设的在专家规则的基础上利用关联规则算法形成的规则。
7.根据权利要求5所述的方法,其特征在于,所述根据预设的规则采集所述第一专业告警数据中产生跨专业故障的第一根因告警数据,具体包括:
根据所述预设的规则采集所述第一专业告警数据中产生跨专业故障的第一条第一根因告警数据;
当采集到第一条第一根因告警数据后,在第二预设时长内继续采集第一根因告警数据;
直至第一专业告警数据中不再产生第一根因告警数据或者达到所述第二预设时长,停止采集并得到本次采集的全部第一根因告警数据。
8.根据权利要求5所述的方法,其特征在于,所述采用第三线程监听所述跨专业故障事件,根据监听到的跨专业故障事件调取相应的第二专业告警数据,分析调取的第二专业告警数据以获得相应的跨专业故障分析结果,具体包括:
开启第三线程监听跨专业故障事件,当监听到跨专业故障事件时,获取监听到的跨专业故障事件所述第一根因告警数据的发生时间;
采用第三线程调取发生时间与所述第一根因告警数据的发生时间相差不超过第三预设时长的第二专业告警数据;
采用第三线程分析调取的第二专业告警数据,以获得所述第一根因告警数据在所述第二专业内对应的故障类型和故障位置。
9.根据权利要求8所述的方法,其特征在于,所述采用第三线程分析调取的第二专业告警数据,以获得所述第一根因告警数据在所述第二专业内对应的故障类型和故障位置,具体包括:
采用第三线程对调取的第二专业告警数据进行分析,根据所述预设的规则,采集第二专业告警数据的第二根因告警数据;
根据所述第二根因告警数据中的告警名称和故障网元、板卡与端口,获得所述第一根因告警数据在所述第二专业内对应的故障类型,所述故障类型包括:电源故障、设备脱管、光缆中断、光信号丢失中的一种;
若所述故障类型为光缆中断故障类型,则根据预先获得的网络拓扑信息定位故障位置,若所述故障类型为除光缆中断故障类型之外的其他故障类型,则根据调取的第二专业告警数据根据其中的故障网元、板卡与端口定位故障位置。
10.根据权利要求9所述的方法,其特征在于,所述若所述故障类型为光缆中断故障类型,则根据预先获得的网络拓扑信息定位故障位置,具体包括:
将预先获得的网络拓扑信息转化成图结构,所述网络拓扑信息由数据平台定期更新并发送给所述第三线程;
若所述故障类型为光缆中断故障类型,获取调取的第二专业告警数据中涉及的全部告警网元;
使用图形搜索算法,搜索所述图结构中只包含告警网元的非连通子图;
根据搜索到的非连通子图定位光缆中断的故障位置,故障位置为各告警网元之间连接的光缆。
11.一种跨专业故障分析装置,其特征在于,包括:
数据模块,用于采用第一线程获取第一专业告警数据,采用第二线程获取第二专业告警数据;
事件模块,与所述数据模块连接,用于采用第一线程根据所述第一专业告警数据发出跨专业故障事件;
结果模块,与所述事件模块连接,用于采用第三线程监听所述跨专业故障事件,根据监听到的跨专业故障事件调取相应的第二专业告警数据,分析调取的第二专业告警数据以获得相应的跨专业故障分析结果。
12.一种跨专业故障分析装置,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行如权利要求1-10任一项所述的跨专业故障分析方法。
13.一种跨专业故障分析系统,其特征在于,包括:
客户端,用于执行如权利要求1-10任一项所述的跨专业故障分析方法;
kafka集群,与所述客户端连接,用于接收、存储、发送所述第一专业告警数据和所述第二专业告警数据;
数据平台,与所述kafka集群连接,用于实时采集所述第一专业告警数据和所述第二专业告警数据,并发送给所述kafka集群。
CN202210481466.2A 2022-05-05 2022-05-05 跨专业故障分析方法、装置及系统 Active CN114884798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210481466.2A CN114884798B (zh) 2022-05-05 2022-05-05 跨专业故障分析方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210481466.2A CN114884798B (zh) 2022-05-05 2022-05-05 跨专业故障分析方法、装置及系统

Publications (2)

Publication Number Publication Date
CN114884798A true CN114884798A (zh) 2022-08-09
CN114884798B CN114884798B (zh) 2023-06-09

Family

ID=82673727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210481466.2A Active CN114884798B (zh) 2022-05-05 2022-05-05 跨专业故障分析方法、装置及系统

Country Status (1)

Country Link
CN (1) CN114884798B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112061A1 (en) * 2004-06-24 2006-05-25 Masurkar Vijay B Rule based engines for diagnosing grid-based computing systems
US7636424B1 (en) * 2004-04-30 2009-12-22 Sprint Comminications Company L.P. Method and system for selectively displaying alarms in a communications network
CN103929326A (zh) * 2014-03-18 2014-07-16 烽火通信科技股份有限公司 通信网传输类告警统一分析的装置及方法
CN106559248A (zh) * 2015-09-30 2017-04-05 中兴通讯股份有限公司 一种告警方法、告警装置和告警系统
CN107196804A (zh) * 2017-06-01 2017-09-22 国网山东省电力公司信息通信公司 电力系统终端通信接入网告警集中监控系统及方法
CN108156037A (zh) * 2017-12-29 2018-06-12 中国移动通信集团江苏有限公司 告警关联分析方法、装置、设备及介质
CN111722991A (zh) * 2020-06-23 2020-09-29 平安普惠企业管理有限公司 告警信息处理方法、装置、设备及存储介质
CN112564949A (zh) * 2020-11-27 2021-03-26 中盈优创资讯科技有限公司 一种基于跨专业告警关联规则的分析方法及装置
CN113704046A (zh) * 2020-05-21 2021-11-26 中移(苏州)软件技术有限公司 一种故障告警处理方法及装置、设备、存储介质
CN114338367A (zh) * 2021-12-27 2022-04-12 中国联合网络通信集团有限公司 故障定位方法、装置及计算机存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7636424B1 (en) * 2004-04-30 2009-12-22 Sprint Comminications Company L.P. Method and system for selectively displaying alarms in a communications network
US20060112061A1 (en) * 2004-06-24 2006-05-25 Masurkar Vijay B Rule based engines for diagnosing grid-based computing systems
CN103929326A (zh) * 2014-03-18 2014-07-16 烽火通信科技股份有限公司 通信网传输类告警统一分析的装置及方法
CN106559248A (zh) * 2015-09-30 2017-04-05 中兴通讯股份有限公司 一种告警方法、告警装置和告警系统
CN107196804A (zh) * 2017-06-01 2017-09-22 国网山东省电力公司信息通信公司 电力系统终端通信接入网告警集中监控系统及方法
CN108156037A (zh) * 2017-12-29 2018-06-12 中国移动通信集团江苏有限公司 告警关联分析方法、装置、设备及介质
CN113704046A (zh) * 2020-05-21 2021-11-26 中移(苏州)软件技术有限公司 一种故障告警处理方法及装置、设备、存储介质
CN111722991A (zh) * 2020-06-23 2020-09-29 平安普惠企业管理有限公司 告警信息处理方法、装置、设备及存储介质
CN112564949A (zh) * 2020-11-27 2021-03-26 中盈优创资讯科技有限公司 一种基于跨专业告警关联规则的分析方法及装置
CN114338367A (zh) * 2021-12-27 2022-04-12 中国联合网络通信集团有限公司 故障定位方法、装置及计算机存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEE,CHUN-LEUNG: ""An intelligent alarm system for fault diagnosis of a steam-powered generating unit"", 《POLYU ELECTRONIC THESES》 *
孙娟: ""移动通信网集中故障管理系统开发与 研究"", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑 I136-350》 *
郝鹏海;徐成龙;刘一田;: ""基于Kafka和Kubernetes的云平台监控告警系统"", 《计算机系统应用》, no. 8 *

Also Published As

Publication number Publication date
CN114884798B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN112612675B (zh) 微服务架构下的分布式大数据日志链路跟踪方法及系统
CN111092752B (zh) 跨多个网络切片的故障定位方法及装置
CN111181767A (zh) 一种面向复杂系统的监控和故障自愈系统及其方法
CN114189430A (zh) 立体化日志全链路监控系统、方法、介质及设备
CN114124655B (zh) 网络监控方法、系统、装置、计算机设备和存储介质
CN112685370B (zh) 一种日志采集方法、装置、设备和介质
CN111708670B (zh) 实时操作系统中任务时间参数的确定方法、装置及车辆
CN116594840A (zh) 基于elk的日志故障采集与分析方法、系统、设备及介质
CN108696371B (zh) 网络故障确定方法及系统
CN111970151A (zh) 虚拟及容器网络的流量故障定位方法及系统
CN114884798B (zh) 跨专业故障分析方法、装置及系统
CN101252477A (zh) 一种网络故障根源的确定方法及分析装置
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN110837530A (zh) 基于轨道交通综合设备监测的故障信息处理方法及装置
CN114090382B (zh) 超融合集群健康巡检方法和装置
CN107835097B (zh) 告警信息同步方法及装置、网元
CN114444137B (zh) 一种定位硬盘所在机柜扩展器的方法、系统、设备及介质
US20220309061A1 (en) Mining machine management method and system
CN115168605A (zh) 图谱的确定方法和装置、存储介质及电子装置
CN115705259A (zh) 故障处理方法、相关设备及存储介质
CN113722135A (zh) 一种错误日志采集系统、方法、设备及介质
CN115314358A (zh) 一种家宽网络的哑网元故障监控方法和装置
CN111681397A (zh) 一种配网自动化短信发送方法、发送系统和存储介质
CN109684159A (zh) 分布式消息系统的状态监控方法、装置、设备及存储介质
CN113741378B (zh) 分散控制系统后台异常点高频采集的故障分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant