CN113766363B - 故障监控方法、装置及计算设备 - Google Patents

故障监控方法、装置及计算设备 Download PDF

Info

Publication number
CN113766363B
CN113766363B CN202010493579.5A CN202010493579A CN113766363B CN 113766363 B CN113766363 B CN 113766363B CN 202010493579 A CN202010493579 A CN 202010493579A CN 113766363 B CN113766363 B CN 113766363B
Authority
CN
China
Prior art keywords
network element
alarm
information
service
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010493579.5A
Other languages
English (en)
Other versions
CN113766363A (zh
Inventor
郑治昌
亓玉娇
张卷卷
杨川
王巍
吴震宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010493579.5A priority Critical patent/CN113766363B/zh
Publication of CN113766363A publication Critical patent/CN113766363A/zh
Application granted granted Critical
Publication of CN113766363B publication Critical patent/CN113766363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0005Switch and router aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q2011/0079Operation or maintenance aspects
    • H04Q2011/0083Testing; Monitoring

Abstract

本发明实施例涉及故障监控技术领域,公开了一种故障监控方法、装置及计算设备。该方法包括:当接收到预设时间内的若干告警信息时,生成告警事件,其中,所述告警事件包括所述若干告警信息,所述告警信息包括告警网元的名称;根据所述告警事件中所述告警网元的名称,查询所述告警网元的上联网元信息,所述上联网元信息包括上联网元的名称;根据所述上联网元的名称,查询所述上联网元的端口的流量信息;根据所述上联网元的端口的流量信息,确定所述告警网元是否退服;若确定所述告警网元退服,则根据所述退服的告警网元,进行故障监控。通过上述方式,本发明实施例能够提高处理效率。

Description

故障监控方法、装置及计算设备
技术领域
本发明实施例涉及故障监控技术领域,具体涉及一种故障监控方法、装置及计算设备。
背景技术
随着家庭宽带业务的普及,承载家庭宽带业务的关键设备光线路终端(opticalline terminal,OLT)得到大规模建设,单台OLT承载的家庭宽带用户数一般在一千至两千,若发生单台甚至批量OLT离线,将对众多用户造成影响。
目前,当发生OLT离线告警时,需要人工对一个个平台进行查询和汇总,处理效率较低。
发明内容
鉴于上述问题,本发明实施例提供了一种故障监控方法、装置及计算设备,能够提高处理效率。
根据本发明实施例的第一方面,提供了一种故障监控方法,包括:当接收到预设时间内的若干告警信息时,生成告警事件,其中,所述告警事件包括所述若干告警信息,所述告警信息包括告警网元的名称;根据所述告警事件中所述告警网元的名称,查询所述获取的告警网元的上联网元信息,所述上联网元信息包括上联网元的名称;根据所述上联网元的名称,查询所述上联网元的端口的流量信息;根据所述上联网元的端口的流量信息,确定所述告警网元是否退服;若确定所述告警网元退服,则根据所述退服的告警网元,进行故障监控。
在一种可选的方式中,所述上联网元信息还包括所述告警网元与所述上联网元之间的互联端口信息;
在所述根据所述告警事件中所述告警网元的名称,查询所述告警网元的上联网元信息之后,所述方法还包括:根据所述告警网元的名称、所述上联网元的名称、所述告警网元与所述上联网元之间的互联端口信息,生成所述告警网元和所述上联网元的拓扑图;从IP综合网管系统中获取与所述拓扑图相关的性能指标信息,并将所述性能指标信息记录到所述拓扑图中;
所述根据所述上联网元的名称,查询所述上联网元的端口的流量信息,具体包括:根据所述拓扑图中记录的性能指标信息,获取所述上联网元的端口的流量信息。
在一种可选的方式中,所述流量信息包括所述流入利用率和流出利用率;所述根据所述交换机的端口的流量信息,确定所述获取的告警网元是否退服,从而进行故障监控,具体包括:若所述流入利用率或所述流出利用率小于预设阈值,则确定所述获取的告警网元退服;若所述流入利用率或所述流出利用率大于或者等于所述预设阈值,则确定所述告警网元没有退服。
在一种可选的方式中,所述根据所述退服的告警网元,进行故障监控,具体包括:根据所述退服的告警网元的名称,从综合网络资源管理系统中获取所述退服的告警网元的影响用户数,从而输出故障监控信息。
在一种可选的方式中,所述根据所述退服的告警网元,进行故障监控,具体包括:从故障管理系统中获取波分主光路告警信息;根据所述波分主光路告警信息,获取所述波分主光路的始端告警端口名称和末端告警端口名称;根据所述退服的告警网元的名称、所述上联网元的名称、所述始端告警端口名称和所述末端告警端口名称,确定所述退服的告警网元和所述上联网元之间的链路是否全部中断;若确定所述退服的告警网元和所述上联网元之间的链路全部中断,则确定所述退服的告警网元的故障原因为传输中断。
在一种可选的方式中,所述根据所述退服的告警网元,进行故障监控,具体还包括:若确定所述退服的告警网元和所述上联网元之间的链路没有全部中断,则根据所述退服的告警网元的名称,从综合网络资源管理系统中获取所述退服的告警网元的所属机房信息;根据所述所属机房信息,若从所述故障管理系统中获取到所述所属机房存在市电停电告警、交流输入故障告警或直流欠压告警,则确定所述退服的告警网元的故障原因为停电。
在一种可选的方式中,所述告警网元为OLT网元,所述上联网元为交换机。
根据本发明实施例的第二方面,提供了一种故障监控装置,包括:事件生成模块,用于当接收到预设时间内的若干告警信息时,生成告警事件,其中,所述告警事件包括所述若干告警信息,所述告警信息包括告警网元的名称;上联查询模块,用于根据所述告警事件中所述告警网元的名称,查询所述获取的告警网元的上联网元信息,所述上联网元信息包括上联网元名称;流量查询模块,用于根据所述上联网元的名称,查询所述上联网元的端口的流量信息;退服确定模块,用于根据所述上联网元的端口的流量信息,确定所述告警网元是否退服;故障监控模块,用于若确定所述告警网元退服,则根据所述退服的告警网元,进行故障监控。
根据本发明实施例的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的故障监控方法的操作。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算设备上运行时,使得计算设备执行上述的故障监控方法。
本发明实施例通过当接收到预设时间内的若干告警信息时,生成告警事件,告警事件包括若干告警信息,告警信息包括告警网元的名称,根据告警事件中告警网元的名称,查询告警网元的上联网元信息,上联网元信息包括上联网元的名称,根据上联网元的名称,查询上联网元的端口的流量信息,根据上联网元的端口的流量信息,确定告警网元是否退服,若确定告警网元退服,则根据退服的告警网元,进行故障监控,将传统的告警监控改变为事件监控,并且能够对根据接入的多个平台的数据进行分析,以判断网元退服的真实性,对真实退服的网元进行故障监控,能够自动进行故障监控,从而进一步提升网元离线故障的监控自动化水平和预处理效率。
进一步地,能够自动识别出退服的告警网元的传输中断或动力停电故障原因,从而提高处理效率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例的应用场景的结构示意图;
图2示出了本发明实施例提供的故障监控方法的流程示意图;
图3示出了本发明实施例提供的告警网元与上联网元的拓扑图的结构示意图;
图4示出了本发明实施例提供的故障监控装置的结构示意图;
图5示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
随着家庭宽带业务的普及,承载家庭宽带业务的关键设备光线路终端(opticalline terminal,OLT)得到大规模建设,单台OLT承载的家庭宽带用户数一般在一千至两千,若发生单台甚至批量OLT离线,将对众多用户造成影响。另外,由于城市大规模基础设施建设、小城镇改造等原因,OLT离线故障十分频繁。
本发明人对现有技术进行分析后发现,目前,故障监控模式仍为传统的告警流水窗式监控,虽部署了一些告警关联和智能预处理手段,但对于整个故障的调度和处理仍显不足,当发生OLT离线告警时,需要人工对一个个平台进行查询和汇总,监控人员往往疲于在多个系统间来回切换查询,处理效率较低,并且由于监控人员能力水平差异,故障定界的时效性和准确性往往存在较大差异。
基于此,本发明实施例提供了一种故障监控方法、装置及计算设备,能够提高处理效率。
具体地,下面结合附图,对本发明实施例作进一步阐述。
需要说明的是,本发明实施例可用于网络系统中任意网元的故障监控,本发明实施例以OLT网元的故障监控为例举例说明。
其中,应当理解的是,本发明提供的下述实施例之间,只要不冲突,均可相互结合以形成新的实施方式。
图1示出了本发明实施例的应用场景的结构示意图。如图1所示,该应用场景包括:IP综合网管系统101、综合网络资源管理系统102、故障管理系统103、4A系统104、电子运维系统(Electric Operation Maintenance System,EOMS)105、网投平台106、事件管理系统107、共享平台108以及计算设备109。其中,综合网络资源管理系统102、故障管理系统103、4A系统104、电子运维系统(Electric Operation Maintenance System,EOMS)105分别通过共享平台108与计算设备109连接,IP综合网管系统101、网投平台106、事件管理系统107与计算设备109连接。
其中,IP综合网管系统101用于将数据通信设备的性能指标(包含CPU/内存利用率、端口流入/流出速率、端口流入/流出利用率、BRAS峰值在线用户数、BRAS峰值地址池利用率等)、CMNET网元信息、CMNET电路数据、Syslog日志等信息接入至计算设备109。综合网络资源管理系统102用于将OLT网元信息表、业务电路表、传输电路表、宽带表(包含家宽用户归属OLT信息)等信息接入至共享平台108。故障管理系统103用于将相关设备告警和性能告警(如OLT离线告警、波分主光路中断告警、市电停电告警等)等信息接入至共享平台108。4A系统104用于将4A操作日志接入至共享平台108。EOMS 105用于将工程信息发布1.0和2.0数据接入至共享平台108。网投系统106用于将家宽业务分地市投诉量数据接入至计算设备109,还用于将OLT归属实时投诉量传输至事件管理系统107。事件管理系统107用于从网投系统106获取OLT归属实时投诉量,并从大客户平台获取OLT承载政企业务量,并将OLT归属实时投诉量以及OLT承载政企业务量接入至计算设备109。通过以上方式,使得计算设备109能够获取到多个维度的数据,并通过获取的数据进行故障监控。
在本实施例中,通过从多个外部系统接收多维数据,并对多维数据进行本地存储,将原分散在各个支撑系统的数据集中于一点进行查询,极大提升了OLT离线故障预处理效率。
图2示出了本发明实施例提供的故障监控方法的流程示意图。该方法可以应用于图1中的计算设备。如图2所示,该方法包括:
步骤210、当接收到预设时间内的若干告警信息时,生成告警事件,其中,告警事件包括若干告警信息,告警信息包括告警网元的名称。
其中,计算设备可以通过共享平台接收故障管理系统发送的告警信息的推送,从而接收告警信息。告警信息包括告警网元的名称,例如,告警网元可以为OLT告警网元,则告警信息为OLT离线告警信息,OLT离线告警信息中包括OLT告警网元的名称。计算设备可以将“设备类型=OLT”和“告警标题=网管与设备通信失败或网元链路断或MCOMFAIL或ISO”作为条件,获取告警信息中的OLT离线告警信息。
其中,当接收到第一个告警信息时,计算设备开始计时,当计算时间达到预设时间时,将在预设时间内获取到的全部告警信息按照预设区域触发生成告警事件,从而生成告警事件。其中,预设区域可以为预先设置的需要进行故障监控的某个城市、某个区等等,则告警事件为某个预设区域的告警事件。按照预设区域触发生成告警事件,具体可以为:根据告警网元的名称,从综合网络资源管理系统中获取告警网元的位置信息;根据告警网元的位置信息,将位置在预设区域的范围内的告警网元所对应的告警信息作为一个告警事件。其中,可以通过共享平台从综合网络资源管理系统中获取OLT网元信息表,根据告警事件中的OLT告警网元的名称,在OLT网元信息表中查询OLT告警网元的名称对应的位置信息,从而获取告警网元的位置信息。可选地,位置信息可以为OLT告警网元所属的地区信息。在获取到OLT告警网元的位置信息后,根据OLT告警网元的位置信息,确定OLT告警网元的位置是否在预设区域的范围内,若OLT告警网元的位置在预设区域的范围内,则将该OLT告警网元对应的OLT离线告警信息作为一个告警事件。例如,假设预设时间为3分钟,则从接收到第一个OLT离线告警信息开始计时,同时继续接收其他OLT离线告警信息,当计时时间达到3分钟时,以接收到的3分钟内的OLT离线告警信息中的OLT告警网元的名称到综合网络资源管理系统中获取OLT告警网元的位置,将位置在预设区域的范围内的OLT告警网元所对应的OLT离线告警信息作为一个OLT离线告警事件。
其中,在一些实施例中,OLT离线告警信息还包括OLT告警网元的告警时间。则该方法还可以包括:根据告警网元的告警时间,将预设区域中的告警网元最早的告警时间作为该预设区域的告警事件的告警发生时间。
当然,在一些其他实施例中,告警信息还可以为其他网元的离线告警信息,则告警事件则为该其他网元的离线告警事件。
步骤220、根据告警事件中告警网元的名称,查询告警网元的上联网元信息,上联网元信息包括上联网元的名称。
其中,告警事件中包括预设时间预设区域的若干告警信息,告警信息包括告警网元的名称。在步骤220中,通过共享平台从IP综合网管系统中获取CMNET电路数据,在CMNET电路数据中查询与告警网元的名称对应的上联网元信息。其中,上联网元信息是指告警网元的上联网元的信息。上联网元信息可以包括上联网元的名称。在一些实施例中,告警网元可以为OLT告警网元,则上联网元可以为OLT告警网元上联的交换机。
步骤230、根据上联网元的名称,查询上联网元的端口的流量信息。
其中,上联网元可以设有多个端口,上联网元通过上联网元的端口连接告警网元。其中,当上联网元为交互机时,上联网元的端口即交换机侧聚合口。
其中,流量信息可以包括流入利用率和流出利用率。在一些实施例中,根据上联网元的名称,查询上联网元的端口的流量信息,可以为:根据上联网元的名称,从IP综合网管系统中获取上联网元的端口的名称;根据上联网元的端口的名称,从IP综合网管系统中获取流入利用率和流出利用率。具体地,从IP综合网管系统中获取CMNET电路数据,在CMNET电路数据中查询与上联网元的名称对应的上联网元的端口的名称,并从IP综合网管系统中获取数据通信设备性能指标,在数据通信设备性能指标中查询获取到的上联网元的端口的名称对应的流入利用率和流出利用率。
步骤240、根据上联网元的端口的流量信息,确定告警网元是否退服。
其中,告警信息仅仅代表告警网元与网管失去通信,此时,告警网元可能退服,也可能没有退服,因此,需要进一步确定告警网元是否退服。其中,退服是指退出服务。
具体地,步骤240包括:
步骤241、若流入利用率或流出利用率小于预设阈值,则确定告警网元退服;
步骤242、若流入利用率或流出利用率大于或者等于预设阈值,则确定告警网元没有退服。
其中,预设阈值为预先设置的阈值,例如可以为0.1%,则当流入利用率和流出利用率中任一值小于0.1%时,确定告警网元退服,当流入利用率和流出利用率中任一值大于或者等于0.1%时,确定告警网元没有退服。
步骤250、若确定告警网元退服,则根据退服的告警网元,进行故障监控。
其中,在确定退服的告警网元后,对退服的告警网元进行故障原因、影响范围等方面的分析,从而进行故障监控。
在一些其他实施例中,步骤250具体包括:
步骤251、根据退服的告警网元的名称,从综合网络资源管理系统中获取退服的告警网元的影响用户数,从而进行故障监控。
其中,影响用户数可以包括家庭用户数、归属实时投诉量以及承载政企业务数。步骤251的具体实施方式可以为:通过共享平台从综合网络资源管理系统中获取宽带表(包含家宽用户归属OLT信息),以退服的OLT告警网元的名称在宽带表中查询属于该退服的OLT告警网元的家庭用户数,并且,获取事件管理系统的数据,以退服的OLT告警网元的名称在事件管理系统的数据中查询退服的OLT告警网元对应的归属实时投诉量以及承载政企业务数,从而获取到退服的告警网元的影响用户数。
在一些其他实施例中,故障监控还需要对故障原因进行分析。步骤250具体还包括:
步骤252、通过故障管理系统获取波分主光路告警信息。
具体地,通过共享平台从故障管理系统中获取当前处于活动状态的所有的波分主光路告警信息。一个上联网元连接有若干个告警网元,波分主光路是指告警网元和与告警网元连接的上联网元之间的链路,波分主光路告警信息是指告警网元和与告警网元连接的上联网元之间的链路的告警信息,当原本处于活动的该链路中断时,则获取到波分主光路告警信息。
步骤253、根据波分主光路告警信息,获取波分主光路的始端告警端口名称和末端告警端口名称。
具体地,从波分主光路告警信息的告警正文中解析出波分主光路的始端告警端口名称和末端告警端口名称。
步骤254、根据退服的告警网元的名称、交换机的名称、始端告警端口名称和末端告警端口名称,确定退服的告警网元和上联网元之间的链路是否全部中断。
具体地,通过共享平台从综合网络资源管理系统中获取业务电路表和传输电路表,在业务电路表中查询与退服的告警网元的名称、上联网元的名称对应的业务电路并获取业务电路的名称,在传输电路表中查询与业务电路的名称对应的传输电路并获取传输电路的电路路由,其中,电路路由提供了交换机经过的所有传输设备的端口信息;将始端告警端口名称和末端告警端口名称与电路路由中的端口信息进行逐段、双向匹配,若始端告警端口名称和末端告警端口名称匹配上电路路由中的一个波分段落,则确定该波分段落对应的业务电路传输中断,即退服的告警网元和上联网元之间的其中一链路中断;若始端告警端口名称和末端告警端口名称匹配上电路路由中的所有波分段落,则确定退服的告警网元与上联网元之间的链路全部中断。
步骤255、若确定退服的告警网元和上联网元之间的链路全部中断,则确定退服的告警网元的故障原因为传输中断。
在本实施例中,能够自动获取数据并自动识别出退服的告警网元的传输中断故障原因,能够提高处理效率。
在一些其他实施例中,步骤250具体还包括:
步骤256、若确定退服的告警网元和上联网元之间的链路没有全部中断,则根据退服的告警网元的名称,从综合网络资源管理系统中获取退服的告警网元的所属机房信息。
若始端告警端口名称和末端告警端口名称只是匹配上电路路由中的部分波分段落、而没有匹配上电路路由中的全部波分段落,则确定退服的OLT告警网元与上联网元之间的链路没有全部中断。当退服的告警网元和上联网元之间的链路没有全部中断时,通过共享平台从综合网络资源管理系统中获取网元信息表,并根据退服的告警网元的名称在网元信息表中查询退服的告警网元的所属机房信息,其中,所属机房信息可以包括机房的标识。
步骤257、根据所属机房信息,若从故障管理系统中获取到所属机房存在市电停电告警、交流输入故障告警或直流欠压告警,则确定退服的告警网元的故障原因为停电。
在获取到所属机房信息后,通过共享平台从故障管理系统中查询所属机房是否存在市电停电告警、交流输入故障告警或直流欠压告警等信息,若从故障管理系统中获取到市电停电告警、交流输入故障告警或直流欠压告警等信息(即确定所属机房存在市电停电告警、交流输入故障告警或直流欠压告警等信息),则确定退服的告警网元的故障原因为停电。
在本实施例中,能够自动获取数据并自动识别出退服的告警网元的动力停电故障原因,能够提高处理效率。
在一些其他实施例中,上联网元信息还可以包括告警网元与上联网元之间的互联端口信息。在步骤220之后,该方法还可以包括:
步骤261、根据告警网元的名称、上联网元的名称、告警网元与上联网元之间的互联端口信息,生成告警网元与上联网元的拓扑图。
具体可以为:根据告警事件中告警网元的名称字段内容,去重后获取告警网元的名称,根据告警网元的名称绘制告警网元,并根据上联网元的名称以及告警网元与上联网元之间的互联端口信息,绘制告警网元与上联网元之间的互联链路,从而生成告警网元与上联网元的拓扑图。
在一些实施例中,上联网元可以包括交换机、交换机上联的第一路由器和第一路由器上联的第二路由器,上联网元信息可以包括交换机的名称、OLT告警网元与交换机之间的互联端口信息、第一路由器的名称、交换机与第一路由器之间的互联端口信息、第二路由器的名称、第一路由器与第二路由器之间的互联端口信息。其中,第一路由器可以为宽带接入服务器(Broadband Remote Access Server,BRAS)和/或全业务路由器(ServiceRouter,SR),第二路由器可以为核心路由器(Core Router,CR)。则步骤261具体还可以包括:根据OLT告警网元的名称、交换机的名称、OLT告警网元与交换机之间的互联端口信息,绘制OLT告警网元与交换机之间的互联链路;根据第一路由器的名称、交换机与第一路由器之间的互联端口信息,绘制交换机与第一路由器之间的互联链路;根据第二路由器的名称、第一路由器与第二路由器之间的互联端口信息,绘制第一路由器与第二路由器之间的互联链路,从而生成告警网元与上联网元的拓扑图。例如,生成的拓扑图如图3所示。
步骤262、从IP综合网管系统中获取与拓扑图相关的性能指标信息,并将性能指标信息记录到拓扑图中。
其中,与拓扑图相关的性能指标信息可以包括:设备级性能指标信息和端口级性能指标信息。其中,设备级性能指标信息包括CPU利用率、内存利用率、BRAS峰值在线用户数、BRAS峰值地址池利用率等,端口级性能指标信息包括端口流入速率、端口流出速率、端口流入利用率、端口流出利用率等。在本实施例中,设备级性能指标信息通过网元名称(例如交换机的名称、第一路由器的名称、第二路由器的名称等)与拓扑图中的网元实现关联,进而关联至拓扑图;端口级性能指标数据通过网元名称+端口名称与拓扑图中的互联链路实现关联(链路的源端或对端匹配任一即匹配成功),进而关联至拓扑图。
进一步地,步骤262具体可以包括:从综合网络资源管理系统以及IP综合网管系统中获取与拓扑图相关的性能指标信息、资源数据、设备告警信息、操作日志、投诉预警数据,并将性能指标信息、资源数据、设备告警信息、操作日志、投诉预警数据记录到拓扑图中。
其中,资源数据可以来源于综合网络资源管理系统(提供如OLT网元的属性信息)以及IP综合网元系统(提供如除OLT网元以外的其他网元的属性信息)。资源数据(即网元属性)可以包括网元名称、网元管理IP、网元类型、所属机房、设备厂商、所属地市、所属区县等字段信息,在本实施例中,通过网元名称与事件相关拓扑中的网元实现关联,进而使资源数据关联至拓扑关系。
其中,设备告警信息可以包括告警标题、网元名称、告警发生时间、告警清除时间、告警级别、告警正文、告警工程状态等字段信息,在本实施例中,通过网元名称与拓扑图中的网元实现关联,进而使设备告警关联至拓扑图。
其中,操作日志可以包括网元名称、网元管理IP、操作时间、操作人、操作内容等字段内容,在本实施例中,通过将操作时间在24小时内的操作日志以网元名称与拓扑图中的网元实现关联,进而使操作日志关联至拓扑图。
其中,投诉预警数据是指家庭宽带类别的投诉预警数据,数据为按地市每5分钟统计近5分钟内的家庭宽带投诉量并进行累加,数据同时还包括四、三、二、一级投诉预警的阈值,投诉量数据按区县与地市间的归属关系关联进拓扑关系。在本实施例中,通过使多维数据通过网元或地市信息关联进拓扑图,能够提高故障监控的预处理效率,从而提高故障监控的效率。
步骤230可以包括:
步骤231、根据拓扑图中记录的性能指标信息,获取上联网元的端口的流量信息。
其中,性能指标信息中包括有上联网元的端口流量信息,由于拓扑图中记录了性能指标信息,则可以根据上联网元的名称,在拓扑图中查询上联网元的端口的流量信息。例如,当根据告警时间中OLT告警网元的名称,查询到OLT告警网元上联的交换机的名称时,从生成的拓扑图中查询与交换机的名称对应的交换机的端口的流量信息,从而根据流量信息进行进一步的故障监控分析。通过以上方式,将与拓扑图相关的数据关联至拓扑图中,无需每次发生告警事件时都需要从各个系统获取信息,而是能够直接从拓扑图获取信息,直接进行故障监控,能够提高效率。
图4示出了本发明实施例提供的故障监控装置的结构示意图。该方法可以应用于计算设备。如图4所示,该装置包括:事件生成模块310、上联查询模块320、流量查询模块330、退服确定模块340、故障监控模块350。
其中,事件生成模块310用于当接收到预设时间内的若干告警信息时,生成告警事件,其中,所述告警事件包括所述若干告警信息,所述告警信息包括告警网元的名称;上联查询模块320用于根据所述告警事件中所述告警网元的名称,查询所述告警网元的上联网元信息,所述上联网元信息包括上联网元的名称;流量查询模块330用于根据所述上联网元的名称,查询所述上联网元的端口的流量信息;退服确定模块340用于根据所述上联网元的端口的流量信息,确定所述告警网元是否退服;故障监控模块350用于若确定所述告警网元退服,则根据所述退服的告警网元,进行故障监控。
其中,所述上联网元信息还包括所述告警网元与所述上联网元之间的互联端口信息;该装置还包括:拓扑生成模块。拓扑生成模块用于:根据所述告警网元的名称、所述上联网元的名称、所述告警网元与所述上联网元之间的互联端口信息,生成所述告警网元和所述上联网元的拓扑图,从IP综合网管系统中获取与所述拓扑图相关的性能指标信息,并将所述性能指标信息记录到所述拓扑图中。则流量查询模块330具体用于:根据所述拓扑图中记录的性能指标信息,获取所述上联网元的端口的流量信息。
其中,所述流量信息包括所述交换机的端口的流入利用率和流出利用率。退服确定模块340具体用于:若所述流入利用率或所述流出利用率小于预设阈值,则确定所述告警网元退服;若所述流入利用率或所述流出利用率大于或者等于所述预设阈值,则确定所述获取的告警网元没有退服。
在一种可选的方式中,故障监控模块350具体用于:根据所述退服的告警网元的名称,从综合网络资源管理系统中获取所述退服的告警网元的影响用户数,从而进行故障监控。
在一种可选的方式中,故障监控模块350具体还用于:从故障管理系统中获取波分主光路告警信息;根据所述波分主光路告警信息,获取所述波分主光路的始端告警端口名称和末端告警端口名称;根据所述退服的告警网元的名称、所述上联网元的名称、所述始端告警端口名称和所述末端告警端口名称,确定所述退服的告警网元和所述上联网元之间的链路是否全部中断;若确定所述退服的告警网元和所述上联网元之间的链路全部中断,则确定所述退服的告警网元的故障原因为传输中断。
在一种可选的方式中,故障监控模块350具体还用于:若确定所述退服的告警网元和所述上联网元之间的链路没有全部中断,则根据所述退服的告警网元的名称,从综合网络资源管理系统中获取所述退服的告警网元的所属机房信息;根据所述所属机房信息,若从所述故障管理系统中获取到所述所属机房存在市电停电告警、交流输入故障告警或直流欠压告警,则确定所述退服的告警网元的故障原因为停电。
需要说明的是,本发明实施例提供故障监控装置是能够执行上述故障监控方法的装置,则上述故障监控方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
图5示出了本发明实施例提供的计算设备的结构示意图。本发明具体实施例并不对计算设备的具体实现做限定。
如图5所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如共享平台或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于故障监控方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机可执行指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以被处理器402调用使计算设备执行上述实施例中的故障监控方法中的操作。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在计算设备上运行时,使得计算设备执行上述任意方法实施例中的故障监控方法。可执行指令具体可以用于使得计算设备执行上述实施例中的故障监控方法中的操作。
本发明实施例通过当接收到预设时间内的若干告警信息时,生成告警事件,告警事件包括若干告警信息,告警信息包括告警网元的名称,根据告警事件中告警网元的名称,查询告警网元的上联网元信息,上联网元信息包括上联网元的名称,根据上联网元的名称,查询上联网元的端口的流量信息,根据上联网元的端口的流量信息,确定告警网元是否退服,若确定获取的告警网元退服,则根据退服的告警网元,进行故障监控,将传统的告警监控改变为事件监控,并且能够对根据接入的多个平台的数据进行分析,以判断网元退服的真实性,对真实退服的网元进行故障监控,能够自动进行故障监控,从而进一步提升网元离线故障的监控自动化水平和预处理效率。
本发明实施例提供一种故障监控装置,用于执行上述故障监控方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使计算设备执行上述任意方法实施例中的故障监控方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的故障监控方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (9)

1.一种故障监控方法,其特征在于,包括:
当接收到预设时间内的若干告警信息时,生成告警事件,其中,所述告警事件包括所述若干告警信息,所述告警信息包括告警网元的名称;
根据所述告警事件中所述告警网元的名称,查询所述告警网元的上联网元信息,所述上联网元信息包括上联网元的名称以及所述告警网元与所述上联网元之间的互联端口信息;
根据所述告警网元的名称、所述上联网元的名称、所述告警网元与所述上联网元之间的互联端口信息,生成所述告警网元和所述上联网元的拓扑图;
从IP综合网管系统中获取与所述拓扑图相关的性能指标信息,并将所述性能指标信息记录到所述拓扑图中;
根据所述拓扑图中记录的性能指标信息,获取所述上联网元的端口的流量信息;
根据所述上联网元的端口的流量信息,确定所述告警网元是否退服;
若确定所述告警网元退服,则对所述退服的告警网元进行故障监控。
2.根据权利要求1所述的方法,其特征在于,所述流量信息包括流入利用率和流出利用率;
所述根据所述上联网元的端口的流量信息,确定所述告警网元是否退服,从而进行故障监控,具体包括:
若所述流入利用率或所述流出利用率小于预设阈值,则确定所述告警网元退服;
若所述流入利用率或所述流出利用率大于或者等于所述预设阈值,则确定所述告警网元没有退服。
3.根据权利要求1所述的方法,其特征在于,所述根据所述退服的告警网元,进行故障监控,具体包括:
根据所述退服的告警网元的名称,从综合网络资源管理系统中获取所述退服的告警网元的影响用户数,从而输出故障监控信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述退服的告警网元,进行故障监控,具体包括:
从故障管理系统中获取波分主光路告警信息;
根据所述波分主光路告警信息,获取所述波分主光路的始端告警端口名称和末端告警端口名称;
根据所述退服的告警网元的名称、所述上联网元的名称、所述始端告警端口名称和所述末端告警端口名称,确定所述退服的告警网元和所述上联网元之间的链路是否全部中断;
若确定所述退服的告警网元和所述上联网元之间的链路全部中断,则确定所述退服的告警网元的故障原因为传输中断。
5.根据权利要求4所述的方法,其特征在于,所述根据所述退服的告警网元,进行故障监控,具体还包括:
若确定所述退服的告警网元和所述上联网元之间的链路没有全部中断,则根据所述退服的告警网元的名称,从综合网络资源管理系统中获取所述退服的告警网元的所属机房信息;
根据所述所属机房信息,若从所述故障管理系统中获取到所述所属机房存在市电停电告警、交流输入故障告警或直流欠压告警,则确定所述退服的告警网元的故障原因为停电。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述告警网元为OLT网元,所述上联网元为交换机。
7.一种故障监控装置,其特征在于,包括:
事件生成模块,用于当接收到预设时间内的若干告警信息时,生成告警事件,其中,所述告警事件包括所述若干告警信息,所述告警信息包括告警网元的名称;
上联查询模块,用于根据所述告警事件中所述告警网元的名称,查询所述告警网元的上联网元信息,所述上联网元信息包括上联网元的名称以及所述告警网元与所述上联网元之间的互联端口信息;
拓扑生成模块,用于根据所述告警网元的名称、所述上联网元的名称、所述告警网元与所述上联网元之间的互联端口信息,生成所述告警网元和所述上联网元的拓扑图,从IP综合网管系统中获取与所述拓扑图相关的性能指标信息,并将所述性能指标信息记录到所述拓扑图中;
流量查询模块,用于根据所述拓扑图中记录的性能指标信息,获取所述上联网元的端口的流量信息;
退服确定模块,用于根据所述上联网元的端口的流量信息,确定所述告警网元是否退服;
故障监控模块,用于若确定所述告警网元退服,则对所述退服的告警网元进行故障监控。
8.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6任一项所述的故障监控方法的操作。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算设备上运行时,使得计算设备执行如权利要求1-6任一项所述的故障监控方法的操作。
CN202010493579.5A 2020-06-03 2020-06-03 故障监控方法、装置及计算设备 Active CN113766363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010493579.5A CN113766363B (zh) 2020-06-03 2020-06-03 故障监控方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010493579.5A CN113766363B (zh) 2020-06-03 2020-06-03 故障监控方法、装置及计算设备

Publications (2)

Publication Number Publication Date
CN113766363A CN113766363A (zh) 2021-12-07
CN113766363B true CN113766363B (zh) 2023-04-07

Family

ID=78783205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010493579.5A Active CN113766363B (zh) 2020-06-03 2020-06-03 故障监控方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN113766363B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115776454A (zh) * 2022-11-16 2023-03-10 浪潮通信信息系统有限公司 一种面向家宽上网不可用网元定界的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107196804A (zh) * 2017-06-01 2017-09-22 国网山东省电力公司信息通信公司 电力系统终端通信接入网告警集中监控系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368776A (zh) * 2013-07-09 2013-10-23 杭州东方通信软件技术有限公司 一种通过标准化体检对设备状态进行评估的方法及系统
CN108206757B (zh) * 2016-12-20 2020-12-18 中国移动通信集团广东有限公司 无线传输故障告警处理方法及装置
CN109993183B (zh) * 2017-12-30 2022-12-27 中国移动通信集团四川有限公司 网络故障评估方法、装置、计算设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107196804A (zh) * 2017-06-01 2017-09-22 国网山东省电力公司信息通信公司 电力系统终端通信接入网告警集中监控系统及方法

Also Published As

Publication number Publication date
CN113766363A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN109165136B (zh) 终端运行数据的监控方法、终端设备及介质
US8676965B2 (en) Tracking high-level network transactions
CN109150572B (zh) 实现告警关联的方法、装置以及计算机可读存储介质
WO2017005223A1 (zh) 一种智能电表的信息共享方法、智能电表及采集路由器
CN111966289B (zh) 基于Kafka集群的分区优化方法和系统
CN112737800B (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN111124830B (zh) 一种微服务的监控方法及装置
CN112291075A (zh) 网络故障定位方法、装置、计算机设备及存储介质
CN111338888B (zh) 一种数据统计方法、装置、电子设备及存储介质
CN108733698A (zh) 一种日志消息的处理方法及后台服务系统
CN113596078A (zh) 业务问题定位方法及装置
CN113766363B (zh) 故障监控方法、装置及计算设备
CN106488416B (zh) 行业短信发送方法与装置
CN114915561A (zh) 网络拓扑图生成方法和装置
US20230043889A1 (en) Message Processing Method and Device, Storage Medium, and Electronic Device
RU2008121872A (ru) Ближайший узел для соединений распределенных служб
CN114553706A (zh) 网络拓扑发现方法、装置及电子设备
US10693754B2 (en) Method and apparatus for determining resource indicator
CN114201314B (zh) 一种基于契约的实现服务依赖发现和服务访问的路由方法
CN115378853A (zh) 一种网络监控方法、装置和设备
CN115333966A (zh) 一种基于拓扑的Nginx日志分析方法、系统及设备
US11190432B2 (en) Method and first node for managing transmission of probe messages
CN117076185B (zh) 一种服务器巡检方法、装置、设备及介质
CN116962143B (zh) 网络故障检测方法、装置、计算机设备和存储介质
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant