CN114513398B - 网络设备告警处理方法、装置、设备及存储介质 - Google Patents

网络设备告警处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114513398B
CN114513398B CN202011163805.XA CN202011163805A CN114513398B CN 114513398 B CN114513398 B CN 114513398B CN 202011163805 A CN202011163805 A CN 202011163805A CN 114513398 B CN114513398 B CN 114513398B
Authority
CN
China
Prior art keywords
alarm
information
component
time
alarm information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011163805.XA
Other languages
English (en)
Other versions
CN114513398A (zh
Inventor
刘吉高
赵强
陶海跻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huawei Digital Technologies Co Ltd
Original Assignee
Beijing Huawei Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huawei Digital Technologies Co Ltd filed Critical Beijing Huawei Digital Technologies Co Ltd
Priority to CN202011163805.XA priority Critical patent/CN114513398B/zh
Publication of CN114513398A publication Critical patent/CN114513398A/zh
Application granted granted Critical
Publication of CN114513398B publication Critical patent/CN114513398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/161Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields
    • H04L69/162Implementation details of TCP/IP or UDP/IP stack architecture; Specification of modified or new header fields involving adaptations of sockets based mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供了一种网络设备告警处理方法、装置、设备及存储介质,属于通信领域。本申请通过在网络设备产生告警事件、生成告警信息、并上报至网络管理系统NMS的过程中,告警信息在网络设备中按照传输路径进行传输,当告警信息经过传输路径上的任一个组件时,将该组件处理告警信息的时间进行记录,另外,生成能够唯一标识该告警事件的告警序列号,最终得到该告警事件的告警轨迹信息。上述方法记录了网络设备从产生告警到上报告警的过程中所有的时间信息,基于此,能够准确判断网络设备是否将告警成功上报至NMS,进一步地,实现对网络设备侧告警与NMS侧告警不一致原因的准确定位。

Description

网络设备告警处理方法、装置、设备及存储介质
技术领域
本申请涉及通信领域,特别涉及一种网络设备告警处理方法、装置、设备及存储介质。
背景技术
通信网络在人们日常生活中占据着越来越重要的角色,对于通信网络中网络设备的正常运行和产生故障时的快速恢复也因此变得越来越重要。为了能够及时感知网络设备的运行状态,每台网络设备都提供了一套告警监控系统,当网络设备的运行状态出现异常情况,例如网络设备自身或通信网络发生故障时,告警监控系统会及时产生告警,并将告警上报给用于管理网络中网络设备的网络管理系统(network management system,NMS),以便网络管理员可以及时进行故障处理及业务恢复。告警一般采用简单网络管理协议(simple network management protocol,SNMP)方式上报至NMS,这种方式无法保证网络设备产生并上报的告警一定被NMS接收到,所以在网络的运行维护过程中,经常出现网络设备侧的告警与NMS侧告警不一致的问题,比如网络设备侧存在故障告警而NMS侧无对应告警,或者网络设备故障告警已经清除,而NMS侧告警被残留。
为消除告警不一致存在的潜在网络隐患,需要确认网络设备侧与NMS侧告警不一致的原因。在相关技术中,网络设备在产生告警并上报至NMS的过程中,网络设备中的故障管理(fault management,FM)组件会记录相应的告警信息,信息管理(informationmanagement,IM)组件会记录相应的告警日志。因此,在确定网络设备是否产生告警并上报NMS时,通常采用以下两种方法:一种是通过查询FM组件中的告警信息,如果存在对应的告警信息,则说明该告警已经产生并上报给NMS,另一种是通过查询IM组件中的告警日志,如果存在对应的告警日志,则说明该告警已经产生并上报给NMS。
可见,在相关技术中,仅在FM和IM两个组件中记录网络设备的告警,然而,对于网络设备而言,从产生告警到最终上报至NMS,告警信息或者告警日志等这类用于表示告警的数据会在网络设备内部多个组件流转处理,任一组件的处理失败都可能导致告警上报失败,仅从FM和IM两个组件中查询到对应的告警信息或告警日志,并不能确定网络设备已经将告警成功上报至NMS,导致无法准确定位告警不一致的原因。
发明内容
本申请实施例提供了一种网络设备告警处理方法、装置、设备及存储介质,能够准确判断网络设备是否将告警成功上报至NMS,进一步地,实现对网络设备侧告警与NMS侧告警不一致原因的准确定位。所述技术方案如下:
第一方面,提供了一种网络设备告警处理方法,应用于网络设备,所述方法包括:
接收第一告警信息,所述第一告警信息包括产生告警事件的业务应用的应用信息和所述告警事件的产生时间;
基于所述第一告警信息,生成第二告警信息,所述第二告警信息包括所述第一告警信息和告警序列号,所述告警序列号用于唯一标识所述告警事件;
发送所述第二告警信息;基于所述第一告警信息和所述第二告警信息在所述网络设备内的传输路径,生成所述告警事件对应的告警轨迹信息,所述告警轨迹信息包括所述传输路径中各个组件所传输的告警信息以及对所述告警信息的接收时间和发送时间。
本申请实施例中,在网络设备产生告警事件、生成告警信息、并上报至网络管理系统NMS的过程中,告警信息在网络设备中按照传输路径进行传输,当告警信息经过传输路径上的任一个组件时,将该组件处理告警信息的时间进行记录,另外,生成能够唯一标识该告警事件的告警序列号,最终得到该告警事件的告警轨迹信息。上述方法记录了网络设备从产生告警到上报告警的过程中所有的时间信息,基于此,能够准确判断网络设备是否将告警成功上报至NMS,进一步地,实现对网络设备侧告警与NMS侧告警不一致原因的准确定位。
可选地,所述发送所述第二告警信息包括:所述网络设备中的故障管理组件通过所述传输路径中的至少一个通信组件,将所述第二告警信息发送给网络管理系统,所述故障管理组件用于对所述网络设备发生的故障进行管理,所述通信组件用于在接收到所述第二告警信息后,将所述第二告警信息发送至下一个通信组件,并记录所述第二告警信息、所述通信组件对所述第二告警信息的接收时间和发送时间。
可选地,所述网络设备中的故障管理组件通过所述传输路径中的至少一个通信组件,将所述第二告警信息发送给网络管理系统包括:所述故障管理组件将所述第二告警信息发送给所述传输路径中的至少一个通信组件中的简单网络管理协议SNMP组件,所述SNMP组件用于在所述网络设备中基于SNMP协议提供各组件之间的通信服务;所述SNMP组件接收所述第二告警信息,通过内存缓存数据块,将所述第二告警信息经过所述传输路径中的至少一个通信组件的传递,发送给所述网络管理系统。
可选地,所述基于所述第一告警信息和所述第二告警信息在所述网络设备内的传输路径,生成所述告警事件对应的告警轨迹信息包括:所述网络设备中的SNMP组件向所述网络设备中的套接字组件发送查询请求,所述套接字用于在所述网络设备中提供两个组件间实现交换数据的通信服务,所述查询请求用于获取所述传输路径中各个组件对应的时间信息,所述查询请求携带所述第二告警信息;所述套接字组件基于所述查询请求,向所述传输路径中各个组件发送时间信息获取请求,接收所述各个组件对应的时间信息,并将获取到的所述各个组件对应的时间信息发送给所述SNMP组件,所述时间信息包括所述传输路径中任一组件所传输的告警信息以及所述任一组件对所述告警信息的接收时间和发送时间;所述SNMP组件接收由所述套接字组件所发送的所述各个组件对应的时间信息;所述SNMP组件基于所述各个组件对应的时间信息以及所述第二告警信息,生成所述告警事件对应的告警轨迹信息。
可选地,所述接收第一告警信息之前,所述方法还包括:所述网络设备中的业务应用组件检测到所述网络设备产生所述告警事件,所述业务应用组件用于在所述网络设备中提供业务处理服务,所述告警事件是指所述网络设备发生故障;所述业务应用组件生成第一告警信息,所述第一告警信息包括产生所述告警事件的业务应用的应用信息和所述告警事件的产生时间;所述业务应用组件将所述第一告警信息发送给所述网络设备中的信息管理组件,所述信息管理组件用于在所述网络设备中提供实时信息处理的服务;所述业务应用组件基于所述第一告警信息,生成第一时间信息,并将所述第一时间信息进行存储,所述第一时间信息包括所述第一告警信息以及所述业务应用组件对所述第一告警信息的发送时间;所述信息管理组件接收所述第一告警信息,并将所述第一告警信息发送给所述网络设备中的故障管理组件。
可选地,所述信息管理组件接收所述第一告警信息,并将所述第一告警信息发送给所述网络设备中的故障管理组件之后,所述方法还包括:所述信息管理组件基于所述第一告警信息,生成第二时间信息,并将所述第二时间信息进行存储,所述第二时间信息包括所述第一告警信息以及所述信息管理组件对所述第一告警信息的接收时间和发送时间。
可选地,所述故障管理组件将所述第二告警信息发送给所述传输路径中的至少一个通信组件中的SNMP组件之后,所述方法还包括:所述故障管理组件基于所述第二告警信息,生成第三时间信息,并将所述第三时间信息进行存储,所述第三时间信息包括所述第二告警信息、所述故障管理组件对所述第一告警信息的接收时间以及对所述第二告警信息的发送时间。
可选地,所述方法还包括:基于所述告警序列号,获取所述告警事件的告警轨迹信息;基于所述告警轨迹信息,确定所述告警事件的目标结果,所述目标结果用于指示所述告警事件是否产生并上报至所述网络管理系统;将所述目标结果发送至所述网络管理系统。
第二方面,提供了一种网络设备告警处理装置,所述装置包括:
接收模块,用于接收第一告警信息,所述第一告警信息包括产生告警事件的业务应用的应用信息和所述告警事件的产生时间;
第一生成模块,用于基于所述第一告警信息,生成第二告警信息,所述第二告警信息包括所述第一告警信息和告警序列号,所述告警序列号用于唯一标识所述告警事件;
第一发送模块,用于发送所述第二告警信息;
第二生成模块,用于基于所述第一告警信息和所述第二告警信息在所述网络设备内的传输路径,生成所述告警事件对应的告警轨迹信息,所述告警轨迹信息包括所述传输路径中各个组件所传输的告警信息以及对所述告警信息的接收时间和发送时间。
可选地,所述第一发送模块用于:所述故障管理组件将所述第二告警信息发送给所述传输路径中的至少一个通信组件中的SNMP组件,所述SNMP组件用于在所述网络设备中基于SNMP协议提供各组件之间的通信服务;所述SNMP组件接收所述第二告警信息,通过内存缓存数据块,将所述第二告警信息经过所述传输路径中的至少一个通信组件的传递,发送给所述网络管理系统。
可选地,所述第二生成模块用于:所述网络设备中的SNMP组件向所述网络设备中的套接字组件发送查询请求,所述套接字用于在所述网络设备中提供两个组件间实现交换数据的通信服务,所述查询请求用于获取所述传输路径中各个组件对应的时间信息,所述查询请求携带所述第二告警信息;所述套接字组件基于所述查询请求,向所述传输路径中各个组件发送时间信息获取请求,接收所述各个组件对应的时间信息,并将获取到的所述各个组件对应的时间信息发送给所述SNMP组件,所述时间信息包括所述传输路径中任一组件所传输的告警信息以及所述任一组件对所述告警信息的接收时间和发送时间;所述SNMP组件接收由所述套接字组件所发送的所述各个组件对应的时间信息;所述SNMP组件基于所述各个组件对应的时间信息以及所述第二告警信息,生成所述告警事件对应的告警轨迹信息。
可选地,所述装置还包括:检测模块,用于所述网络设备中的业务应用组件检测到所述网络设备产生所述告警事件,所述业务应用组件用于在所述网络设备中提供业务处理服务,所述告警事件是指所述网络设备发生故障;第三生成模块,用于所述业务应用组件生成第一告警信息,所述第一告警信息包括产生所述告警事件的业务应用的应用信息和所述告警事件的产生时间;第二发送模块,用于所述业务应用组件将所述第一告警信息发送给所述网络设备中的信息管理组件,所述信息管理组件用于在所述网络设备中提供实时信息处理的服务;第四生成模块,用于所述业务应用组件基于所述第一告警信息,生成第一时间信息,并将所述第一时间信息进行存储,所述第一时间信息包括所述第一告警信息以及所述业务应用组件对所述第一告警信息的发送时间;第三发送模块,用于所述信息管理组件接收所述第一告警信息,并将所述第一告警信息发送给所述网络设备中的故障管理组件。
可选地,所述装置还包括:第五生成模块,用于所述信息管理组件基于所述第一告警信息,生成第二时间信息,并将所述第二时间信息进行存储,所述第二时间信息包括所述第一告警信息以及所述信息管理组件对所述第一告警信息的接收时间和发送时间。
可选地,所述装置还包括:第六生成模块,用于所述故障管理组件基于所述第二告警信息,生成第三时间信息,并将所述第三时间信息进行存储,所述第三时间信息包括所述第二告警信息、所述故障管理组件对所述第一告警信息的接收时间以及对所述第二告警信息的发送时间。
可选地,所述装置还包括:获取模块,用于基于所述告警序列号,获取所述告警事件的告警轨迹信息;确定模块,用于基于所述告警轨迹信息,确定所述告警事件的目标结果,所述目标结果用于指示所述告警事件是否产生并上报至所述网络管理系统;第四发送模块,用于将所述目标结果发送至所述网络管理系统。
第三方面,提供了一种计算机可读存储介质,该存储介质中用于存储至少一段程序代码,该至少一段程序代码用于以执行上述第一方面或第一方面任一种可选方式所提供的网络设备告警处理方法。
第四方面,提供了一种网络设备,该网络设备包括处理器和存储器,该存储器用于存储至少一段程序代码,该至少一段程序代码由该处理器加载并执行上述第一方面或第一方面任一种可选方式所提供的网络设备告警处理方法。
第五方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。网络设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得网络设备执行上述第一方面或第一方面任一种可选方式所提供的网络设备告警处理方法。
第六方面,提供了一种芯片,当该芯片在网络设备上运行时,使得网络设备执行上述第一方面或第一方面任一种可选方式所提供的网络设备告警处理方法。
附图说明
图1是本申请实施例提供的一种网络设备告警处理方法的实施环境的架构图;
图2是本申请实施例提供的一种网络设备的结构示意图;
图3是本申请实施例提供的一种网络设备中组件的结构示意图;
图4是本申请实施例提供的一种网络设备告警处理方法的流程图;
图5是本申请实施例提供的一种生成告警轨迹信息的方法的流程图;
图6是本申请实施例提供的一种处理告警问题的方法的流程图;
图7是本申请实施例提供的一种网络设备告警处理装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面介绍本申请实施例提供的一种网络设备告警处理方法的实施环境。
图1为本申请实施例提供的一种网络设备告警处理方法的实施环境的架构图,参见图1,该实施环境包括:网络管理系统(network management system,NMS)101和至少一个网络设备102。NMS 101是通信网络中的网络管理系统,它的管理对象包括网络中所有的实体,例如:网络设备、应用程序、服务器系统、路由器、交换机、集线器HUB、辅助设备等。网络设备是指在通信网络中运行的设备。例如,网络设备是为终端上所运行的多个应用软件提供后台服务的服务器。NMS 101和至少一个网络设备102通过网络连接。可选地,NMS 101接收由网络设备102通过网络所发送的信息,网络设备102通过网络向NMS 101发送信息。例如,NMS 101通过网络向网络设备102发送信息查询请求,网络设备102基于该信息查询请求,将NMS 101所需查询的信息发送至NMS 101。
可选地,NMS101给网络系统管理员提供一个全系统的网络视图。网络管理员通过NMS101对网络进行全面监控运行状态,可以更好地管理和维护网络。通过NMS101能够提高网络的可用性和可靠性,从而在整体上提高网络运行的效率,降低管理成本。
可选地,NMS101用来监测和处理网络设备102的故障。具体的实现过程为:当网络设备102检测到发生故障时,网络设备102向NMS101发送告警消息。NMS101接收到告警消息后,输出该告警消息对应的告警提示信息,例如,通过声音、邮件或短信等方式向网络管理人员发出告警提示信息,以使管理人员获知该网络设备102发生故障,网络管理人员在收到通知后,可以通过NMS101向网络设备102下发相应的处理策略,使得网络设备102执行该处理策略,解决故障问题。
可选地,NMS101为服务器、个人电脑(personal computer,PC)或移动终端,本实施例对NMS101的具体形态不做限定。网络设备102为服务器、交换机、路由器、中继、网桥、防火墙、移动终端、个人电脑、笔记本电脑、服务网关(serving-gateway,SGW)、分组数据网网关(packet data network gateway,PGW)、光网络终端(optical network terminal,ONT)、光网络单元(optical network unit,ONU)、分光器或物联网终端等,本实施例对网络设备102的具体形态不做限定。
可选地,网络设备102通过硬件实现。例如,网络设备102为虚拟机、容器、应用、服务、微服务、模块、子模块等。可选地,网络设备102通过软件实现。示例性地,网络设备102通过网络功能虚拟化(network function virtualization,NFV)技术实现,例如网络设备102是虚拟网络功能(virtual network function,VNF)或者虚拟网络功能组件(virtualnetwork function component,VNFC)等。可选地,网络设备102为一个设备中运行的软件,或者为多个设备中运行的软件的集合。本实施例对网络设备102的实现方式不做限定。
图2是本申请实施例提供的一种网络设备的结构示意图,该网络设备200可以是主机、服务器或个人计算机等。该网络设备200可以由一般性的总线体系结构来实现。
网络设备200包括至少一个处理器201、通信总线202、存储器203以及至少一个通信接口204。
处理器201是通用中央处理器(central processing unit,CPU)、网络处理器(network processer,NP)、图形处理器(Graphics Processing Unit,GPU)、神经网络处理器(neural-network processing units,NPU)、数据处理单元(Data Processing Unit,DPU)、微处理器或者一个或多个用于实现本申请方案的集成电路。例如,处理器201包括专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。PLD例如是复杂可编程逻辑器件(complexprogrammable logic device,CPLD)、现场可编程逻辑门阵列(field-programmable gatearray,FPGA)、通用阵列逻辑(generic array logic,GAL)或其任意组合。
通信总线202用于在上述组件之间传送信息。通信总线202可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器203是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其它类型的静态存储设备,又如是随机存取存储器(random access memory,RAM)或者可存储信息和指令的其它类型的动态存储设备,又如是电可擦可编程只读存储器(electricallyerasable programmable read-only Memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备,或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器203例如是独立存在,并通过通信总线202与处理器201相连接。存储器203也可以和处理器201集成在一起。
通信接口204使用任何收发器一类的装置,用于与其它设备或通信网络通信。通信接口204包括有线通信接口,还可以包括无线通信接口。其中,有线通信接口例如可以为以太网接口。以太网接口可以是光接口,电接口或其组合。无线通信接口可以为无线局域网(wireless local area networks,WLAN)接口,蜂窝网络通信接口或其组合等。
在具体实现中,作为一种实施例,处理器201可以包括一个或多个CPU,如图2中所示的CPU0和CPU1。
在具体实现中,作为一种实施例,网络设备200可以包括多个处理器,如图2中所示的处理器201和处理器205。这些处理器中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,网络设备200还可以包括输出设备和输入设备。输出设备和处理器201通信,可以以多种方式来显示信息。例如,输出设备可以是液晶显示器(liquid crystal display,LCD)、发光二级管(light emitting diode,LED)显示设备、阴极射线管(cathode ray tube,CRT)显示设备或投影仪(projector)等。输入设备和处理器201通信,可以以多种方式接收用户的输入。例如,输入设备可以是鼠标、键盘、触摸屏设备或传感设备等。
在一些实施例中,存储器203用于存储执行本申请方案的程序代码210,处理器201可以执行存储器203中存储的程序代码210。也即是,网络设备200可以通过处理器201以及存储器203中的程序代码210,来实现下述方法实施例提供的网络设备告警处理方法。
本申请实施例的网络设备200可对应于下述各个方法实施例中的网络设备,并且,该网络设备200中的处理器201、通信接口204等可以实现下述各个方法实施例中的网络设备所具有的功能和/或所实施的各种步骤和方法。为了简洁,在此不再赘述。
由于本申请实施例涉及通信技术的应用,为了便于理解,下面先对本申请实施例涉及的通信技术中的术语相关概念进行介绍。
简单网络管理协议(simple network management protocol,SNMP)是专门设计用于网络协议(internet protocol,IP)网络管理网络节点如服务器、工作站、HUB等的一种标准协议,它是一种应用层协议。SNMP使网络管理员能够管理网络效能,发现并解决网络问题以及规划网络增长,通过SNMP接收网络节点的通知消息以及告警事件报告等来获知网络出现的问题。
业务应用(application,APP)是网络设备中提供业务处理服务的一种组件、模块、程序或软件等。
套接字(socket)是对网络中不同主机上的应用进程之间进行双向通信的端点的抽象。一个套接字就是网络上进程通信的一端,提供了应用层进程利用网络协议交换数据的机制。从所处的地位来讲,套接字上联应用进程,下联网络协议栈,是应用程序通过网络协议进行通信的接口,是应用程序与网络协议根进行交互的接口。
用户数据报协议(user datagram protocol,UDP)是定义用来在互连网络环境中提供包交换的计算机通信的协议,此协议默认认为IP是其下层协议。
故障管理(fault management,FM)是用来动态地维持网络正常运行并达到一定的服务水平的一系列活动。
信息管理(information management,IM)模块通过对系统输出信息进行细致的分类,可以有效地对信息进行筛选。通过信息管理可以配置信息输出到本设备或者远端服务器。
内存缓存数据块(memory buffer,MUBF)是一种缓冲寄存器,允许处理器和内存单元独立行动不影响操作的细微差异。用于暂时存放数据,以便后续需要数据的组件将数据取走。
转发引擎实例(forwarding engine instance,FEI)用于当从某个端口收到一个数据报文(packet)或数据帧(frame)时,转发引擎实例通过解析,查表,应用策略,最后,将报文或帧从另一个端口转出。
图3为本申请实施例提供的一种网络设备告警处理方法所应用的网络设备组件的结构示意图。该网络设备包括:业务应用组件301,用于在网络设备中提供业务处理服务;信息管理组件302,用于在网络设备中提供实时信息处理的服务;故障管理组件303,用于在网络设备中提供对网络设备故障的管理服务;简单网络管理协议组件304,用于在网络设备中基于SNMP协议提供各组件之间的通信服务;套接字组件305,用于在网络设备中提供两个组件间实现交换数据的通信服务;转发引擎实例组件306,用于在网络设备中提供转发数据报文或数据帧的通信服务;驱动转发组件307,用于在网络设备中提供将硬件读写的状态、从硬件上获得的数据发送至网络中的通信服务。
可选地,在网络设备产生告警事件,并将与该告警事件对应的告警信息发送至NMS的过程中,告警信息在上述业务应用组件301至驱动转发组件307之间按照从前往后的顺序依次传递,最终由驱动转发组件307将告警信息发送至NMS。
可选地,在网络设备产生告警事件,并将与该告警事件对应的告警信息发送至NMS的过程中,告警信息在上述业务应用组件301至驱动转发组件307之间也能够按照任一种传递顺序进行传递,本申请实施例对此不做限定。
需要说明的是,图3所示的网络设备的组件结构仅为示例性说明,并不代表本申请实施例所提供的网络设备仅包括图中所示组件。在另一些实施例中,网络设备中组件的数量可以大于图3中的组件数量,也可以少于图3中的组件数量,本申请实施例对此不做限定。
在本申请实施例中,网络设备在产生告警事件、生成告警信息、并上报至NMS的过程中,网络设备将告警信息发送至NMS所需的传输路径分为两个阶段。第一阶段为:网络设备中的业务应用APP组件检测到故障后生成告警信息,将告警信息经过信息管理IM组件和故障管理FM组件的传递,发送给简单网络管理协议SNMP组件;第二阶段为:SNMP组件通过内存缓存数据块,将告警信息经过套接字SOCKET组件和转发引擎实例FEI组件,发送给驱动转发组件,最终由驱动转发组件将告警信息发送给NMS。
下面结合上述网络设备上报告警至NMS的过程,对本申请实施例提供的一种网络设备告警处理方法进行具体说明。
图4为本申请实施例提供的一种网络设备告警处理方法的流程图。如图4所示,在本申请实施例中以应用于网络设备为例进行说明。该方法包括以下步骤:
401、网络设备中的APP组件检测到该网络设备产生告警事件,该告警事件是指该网络设备发生故障。
在本申请实施例中,在网络设备的运行过程中,APP组件能够检测网络设备的运行状态,该运行状态包括该网络设备是否产生告警事件,其中,告警事件是指网络设备发生业务故障。例如,网络设备发生业务故障是指网络设备发生受到暴力破解攻击或者恶意软件攻击等事件,当APP组件检测到网络设备发生这类事件时,将这类事件确定为告警事件。
402、APP组件生成第一告警信息,该第一告警信息包括产生该告警事件的业务应用的应用信息和该告警事件的产生时间。
在本申请实施例中,APP组件在检测到网络设备产生告警事件后,将产生该告警事件的APP的应用信息、以及该告警事件的产生时间进行记录,得到第一告警信息,其中,应用信息为该业务应用的名称。例如,该第一告警信息为“应用名称X,202001010800”。
可选地,APP组件在检测到网络设备产生告警事件后,将产生该告警事件的业务应用的应用信息、该告警事件的产生时间、以及该告警事件的告警详细信息进行记录,以得到第一告警信息,其中,告警详细信息包括该告警事件的告警级别、告警类型以及告警内容等。例如,告警级别为高危、中危、低危等;告警类型为攻击类型、威胁类型等;告警内容为该网络设备受到恶意软件攻击,该恶意软件的标识为A等。本申请实施例对生成告警详细信息的方式不做限定。
403、APP组件将该第一告警信息发送给该网络设备中的IM组件。
404、APP组件基于第一告警信息,生成第一时间信息,并将该第一时间信息进行存储,该第一时间信息包括该第一告警信息以及该APP组件对该第一告警信息的生成时间和发送时间。
在本申请实施例中,APP组件在将第一告警信息发送给IM组件后,将生成第一告警信息的时间和发送第一告警信息的时间进行记录,得到第一时间信息,并将该第一时间信息进行存储。可选地,APP组件通过扩展数据字段的方式,在第一告警信息基础上,添加该APP组件对该第一告警信息的生成时间和发送时间,得到第一时间信息,并将该第一时间信息进行存储。可选地,第一时间信息中还包括APP组件的标识。
405、IM组件接收该第一告警信息,并将该第一告警信息发送给该网络设备中的FM组件。
需要说明的是,上述步骤404至步骤405是按照从前往后的顺序依次执行,可选地,步骤404和步骤405时可以同步执行,也即是,APP组件在执行步骤403之后,在生成第一时间信息,并将第一时间信息进行存储的同时,IM组件接收第一告警信息。可选地,IM组件先执行步骤405,APP组件再执行步骤404。本申请实施例对此不做限定。
另外,需要说明的是,在本申请实施例中告警信息由APP组件先发送给IM组件后,再由IM组件向FM组件发送告警信息。可选地,APP组件不经过IM组件,直接将告警信息发送至FM组件,本申请实施例对此不做限定。
406、IM组件基于该第一告警信息,生成第二时间信息,并将该第二时间信息进行存储,该第二时间信息包括该第一告警信息以及该IM组件对该第一告警信息的接收时间和发送时间。
在本申请实施例中,IM组件在将第一告警信息发送给FM组件后,将接收到该第一告警信息的时间,以及发送该第一告警信息的时间进行记录,得到第二时间信息。可选地,IM组件通过扩展数据字段的方式,在第一告警信息的基础上,添加该IM组件对第一告警信息的接收时间和发送时间,得到第二时间信息,并将该第二时间信息进行存储。可选地,第二时间信息中还包括IM组件的标识。
407、FM组件接收该第一告警信息。
需要说明的是,上述步骤406至407是按照从前往后的顺序依次执行,可选地,步骤406和步骤407时可以同步执行,也即是,IM组件在执行步骤405之后,IM组件在生成第二时间信息,并将第二信息进行存储的同时,FM组件接收第一告警信息。可选地,FM组件先执行步骤407,IM组件再执行步骤406。本申请实施例对此不做限定。
408、FM组件基于该第一告警信息,生成第二告警信息,该第二告警信息包括该第一告警信息和告警序列号,该告警序列号用于唯一标识该告警事件。
在本申请实施例中,FM组件在接收到第一告警信息后,生成告警序列号,用于唯一标识该告警事件。然后,基于第一告警信息以及对应的告警序列号,得到第二告警信息。
可选地,FM组件中存储有历史告警信息,FM组件在接收到第一告警信息后,基于当前FM组件中存储的历史告警信息的数量,对第一告警信息进行编号,得到第一告警信息的告警序列号。例如,第一告警信息为“应用名称X,202001010800”,当前FM组件中存储有历史消息10000条,则第一告警信息的告警序列号为“10001”,所生成的第二告警信息为“10001:X,202001010800”。
可选地,FM组件在接收到第一告警信息后,基于第一告警信息中应用信息的名称,生成对应的告警序列号。例如,第一告警信息为“应用名称X,202001010800”,基于该第一告警信息所生成的告警序列号为“X000001”,所生成的第二告警信息为“X000001:X,202001010800”。
可选地,FM组件在接收到第一告警信息后,基于接收到第一告警信息的时间以及第一告警信息中应用信息的名称,生成对应的告警序列号。例如,第一告警信息为“应用名称X,202001010800”,基于该第一告警信息所生成的告警序列号为“202001010830X”,所生成的第二告警信息为“202001010830X:X,202001010800”。
需要说明的是,上述方法为本申请实施例提供的多种生成告警序列号的方法,本申请实施例对于告警序列号的生成方式不做限定。
409、FM组件将该第二告警信息发送给该网络设备中的SNMP组件。
410、FM组件基于该第二告警信息,生成第三时间信息,并将该第三时间信息进行存储,该第三时间信息包括该第二告警信息、该故障管理FM组件对该第一告警信息的接收时间以及对该第二告警信息的发送时间。
在本申请实施例中,FM组件在将第二告警信息发送给SNMP组件后,将接收到第一告警信息的时间,以及发送第二告警信息的时间进行记录,得到第二时间信息。可选地,FM组件通过扩展数据字段的方式,在第二告警信息的基础上,添加该FM组件对第一告警信息的接收时间和对第二告警信息的发送时间,得到第三时间信息,并将该第三时间信息进行存储。可选地,第三时间信息中还包括FM组件的标识。
411、SNMP组件接收该第二告警信息,通过MUBF,将该第二告警信息经过网络设备内的传输路径中的至少一个通信组件的传递,发送给NMS。
在本申请实施例中,MUBF是网络设备中用于暂时存放数据和传递数据的功能性组件。NMS用于接收第二告警信息,并基于该第二告警信息对网络设备做出相关告警问题的修复指示等处理。传输路径是指网络设备在产生告警事件,并将与该告警事件对应的告警信息发送至网络管理系统所需的信息传输路径。可选地,该传输路径是指在网络设备内部以APP组件为起点,以驱动转发组件为终点,具体可参见图3所提供的网络设备的组件结构示意图。通信组件用于在接收到第二告警信息后,将第二告警信息发送至下一个通信组件,并记录第二告警信息、该通信组件对第二告警信息的接收时间和发送时间。
上述步骤411的实现过程具体包括以下步骤一到步骤四:
步骤一:SNMP组件接收到第二告警信息,将该第二告警信息写入MUBF中,并向SOCKET组件发送第一指令,该第一指令中携带第二告警信息在MUBF中的存储地址,用于指示SOCKET组件从MUBF中读取第二告警信息。其中,SOCKET组件用于在网络设备中提供两个组件间实现交换数据的通信连接服务。SNMP组件基于第二告警信息,生成第四时间信息,并将该第四时间信息进行存储,该第四时间信息包括第二告警信息、该SNMP组件对第二告警信息的接收时间以及对第二告警信息的发送时间,其中,对第二告警信息的发送时间即为向SOCKET组件发送第一指令的时间。具体生成第四时间信息的可选方式与上述步骤404、步骤406以及步骤410类似,故在此不再赘述。
步骤二:SOCKET组件基于第一指令,从MUBF中读取第二告警信息,并向FEI组件发送第二指令,该第二指令中携带第二告警信息在MUBF中的存储地址,用于指示FEI组件从MUBF中读取第二告警信息。其中,FEI组件用于在网络设备中提供转发数据报文或数据帧的通信服务。SOCKET组件基于第二告警信息,生成第五时间信息,并将该第五时间信息进行存储,该第五时间信息包括第二告警信息、该SOCKET组件对第二告警信息的接收时间以及对第二告警信息的发送时间,其中,对第二告警信息的发送时间即为向FEI组件发送第二指令的时间。具体生成第五时间信息的可选方式在此不再赘述。
步骤三:FEI组件基于第二指令,从MUBF中读取第二告警信息,并向驱动转发组件发送第三指令,该第三指令中携带第二告警信息在MUBF中的存储地址,用于指示驱动转发组件从MUBF中读取第二告警信息,并将第二告警信息发送给NMS。其中,驱动转发组件用于在网络设备中提供将硬件读写的状态、从硬件上获得的数据发送至网络中的通信服务。FEI组件基于第二告警信息,生成第六时间信息,并将该第六时间信息进行存储,该第六时间信息包括第二告警信息、该FEI组件对第二告警信息的接收时间以及对第二告警信息的发送时间,其中,对第二告警信息的发送时间即为向驱动转发组件发送第三指令的时间。具体生成第六时间信息的可选方式在此不再赘述。
步骤四:驱动转发组件基于第三指令,从内存缓存数据块中读取第二告警信息,并将第二告警信息发送给NMS,实现将第二告警信息上报给NMS。然后驱动转发组件基于第二告警信息,生成第七时间信息,并将该第七时间信息进行存储,该第七时间信息包括第二告警信息、该驱动转发组件对第二告警信息的接收时间以及对第二告警信息的发送时间。具体生成第七时间信息的可选方式在此不再赘述。
412、网络设备基于第一告警信息和第二告警信息在该网络设备内的传输路径,生成该告警事件对应的告警轨迹信息,该告警轨迹信息包括该传输路径中各个组件所传输的告警信息以及对该告警信息的接收时间和发送时间。
在本申请实施例中,SNMP组件向SOCKET组件发送时间信息的查询请求,再由SOCKET组件向传输路径上的各个组件发送时间信息获取请求,以得到网络设备的传输路径上各个组件的时间信息,基于此,网络设备得到该告警事件的对应的告警轨迹信息。上述步骤412的实现过程具体参考图5,图5是根据本申请实施例提供的一种生成告警轨迹信息的方法的流程图,具体分为以下步骤501至步骤504。
501、SNMP组件向SOCKET组件发送查询请求,该查询请求用于获取该传输路径中各个组件对应的时间信息,该查询请求携带第二告警信息。
在本申请实施例中,各组件对应的时间信息是指上述各个组件在传输告警信息的过程中所存储的时间信息。具体为上述步骤404中的第一时间信息、步骤406中的第二时间信息、步骤410中的第三信息时间以及步骤411中的第四时间信息、第五时间信息、第六时间信息、第七时间信息。
502、SOCKET组件基于该查询请求,向该传输路径中各个组件发送时间信息获取请求,接收各个组件对应的时间信息,并将获取到的各个组件对应的时间信息发送给SNMP组件,该时间信息包括该传输路径中任一组件所传输的告警信息以及任一组件对告警信息的接收时间和发送时间。
在本申请实施例中,SOCKET组件在接收到由SNMP组件所发送的查询请求后,基于该查询请求,向传输路径中的各个组件发送时间信息获取请求,该时间获取请求携带第二告警信息,传输路径中的各个组件在接收到时间获取请求后,将与第二告警信息所对应的时间信息发送给SOCKET组件。
可选地,以传输路径中的IM组件为例,IM组件基于时间获取请求中的第二告警信息,提取该第二告警信息中的业务应用的应用信息和产生告警事件的时间,基于提取出的信息在IM组件所存储的时间信息中匹配对应的时间信息,将匹配到的时间信息发送给SOCKET组件。同理,传输路径中的APP组件采用该方法将对应的时间信息发送给SOCKET组件。
可选地,以传输路径中的FM组件为例,FM组件基于时间获取请求中的第二告警信息,提取该第二告警信息中的告警序列号,基于提取出的告警序列号在FM组件所存储的时间信息中匹配对应的时间信息,将匹配到的时间信息发送给套接字组件。同理,传输路径中的SNMP组件、SOCKET组件、FEI组件以及驱动转发组件采用该方法将对应的时间信息发送给SOCKET组件。
503、SNMP组件接收由SOCKET组件所发送的各个组件对应的时间信息。
504、SNMP组件基于各个组件对应的时间信息以及第二告警信息,生成告警事件对应的告警轨迹信息。
在本申请实施例中,SNMP组件基于接收到的各个组件对应的时间信息,以及第二告警信息,按照传输路径中各个组件的顺序和各个组件的标识,得到告警事件对应的告警轨迹信息,并将该告警轨迹信息进行存储。
可选地,网络设备关联有告警数据库,SNMP组件在生成告警轨迹信息后,将该告警轨迹信息发送至告警数据库中,进行存储。可选地,网络设备中的FM组件具有存储该网络设备中所生成的告警信息的功能,SNMP组件在生成告警轨迹信息后,将该告警轨迹信息发送至FM组件中进行存储。可选地,SNMP组件在生成告警轨迹信息后,将该告警轨迹信息发送至IM组件中进行存储。需要说明的是,对于告警轨迹信息的存储方式,可以采用上述任一方式进行存储,也可以将该告警轨迹信息进行多次存储,形成备份,例如,将告警轨迹信息在告警数据库、FM组件以及IM组件中都进行存储。本申请实施例对于告警轨迹信息的存储方式不做具体限定。
本实施例提供了一种网络设备告警处理方法,在网络设备产生告警事件、生成告警信息、并上报至网络管理系统NMS的过程中,告警信息在网络设备中按照传输路径进行传输,当告警信息经过传输路径上的任一个组件时,将该组件处理告警信息的时间进行记录,另外,生成能够唯一标识该告警事件的告警序列号,最终得到该告警事件的告警轨迹信息。上述方法记录了网络设备从产生告警到上报告警的过程中所有的时间信息,基于此,能够准确判断网络设备是否将告警成功上报至NMS,进一步地,实现对网络设备侧告警与NMS侧告警不一致原因的准确定位。
需要说明的是,上述实施例提供了一种通过记录网络设备中各组件对告警信息的处理轨迹时间信息的方法,该方法还能够用于NMS在接收到告警信息后的处理过程中。例如,以NMS接收到由网络设备所发送的告警信息为起始轨迹点,在NMS对该告警信息的处理过程中,基于每个组件处理告警信息的处理时间,生成告警信息处理的轨迹信息。本申请实施例对此不做具体限定。
图6为本申请实施例提供的一种处理告警问题的方法的流程图。通过上述图4以及图5所示的实施例,在网络设备存储每条告警的告警轨迹信息的基础上,还可以通过图6所示的实施例,在出现相关告警问题时,准确定位出现告警问题的原因。下面以该方法应用于网络设备,处理网络设备侧告警与网络管理侧告警不一致的问题为例进行说明。该方法包括以下步骤:
601、网络设备基于告警序列号,获取告警事件的告警轨迹信息。
在本申请实施例中,网络设备接收到告警查询请求,该告警查询请求携带用于唯一标识一个告警事件的告警序列号,该告警查询请求用于指示网络设备基于该告警序列号确定该告警事件是否产生并上报至NMS。网络设备基于与该告警事件对应的告警序列号,获取该告警事件的告警轨迹信息。可选地,网络设备向告警数据库发送信息查询请求,该信息查询请求携带该告警事件的告警序列号,告警数据库在接收到该信息查询请求后,基于该告警序列号,将与该告警序列号所匹配的告警轨迹信息发送给网络设备。本发明实施例对于告警轨迹信息的存储方式不做具体限定,因此网络设备获取告警轨迹信息的方式相应的也有多种获取方式,本申请实施例对此不做具体限定。
602、网络设备基于该告警轨迹信息,确定该告警事件的目标结果,该目标结果用于指示该告警事件是否产生并上报至NMS。
在本申请实施例中,网络设备基于获取到的告警事件的告警轨迹信息,获取该告警轨迹信息中的各个组件的时间信息,将各个组件的时间信息与网络设备对于告警信息的传输路径进行匹配,以确定网络设备中是否所有组件都接收到告警信息,并将该告警信息发送给下一个组件,最终得到该告警事件的目标结果。
下面以网络设备的传输路径中共有七个组件为例进行举例说明:
例如,告警轨迹信息中一共存在六个组件的时间信息,网络设备按照传输路径上七个组件的顺序,依次匹配告警轨迹信息中各组件的时间信息,当存在传输路径上的驱动转发组件无法匹配到对应的时间信息,则将目标结果确定为“该告警轨迹信息中驱动转发组件未接收到告警信息,告警事件上报失败”。
再例如,告警轨迹信息中一共存在七个组件的时间信息,网络设备按照传输路径上七个组件的顺序,依次匹配告警轨迹信息中各组件的时间信息,当存在传输路径上的驱动转发组件匹配到的时间信息中缺少发送时间,则将目标结果确定为“该告警轨迹信息中驱动转发组件发送失败,告警事件上报失败”。
本申请实施例对于目标结果的确定方式以及对于目标结果的表现形式不做具体限定。
603、网络设备将该目标结果发送至网络管理系统。
需要说明的是,上述步骤601至603是以应用于网络设备为例,网络设备基于告警事件的告警序列号获取到对应的告警轨迹信息,并对该告警轨迹信息进行处理,得到目标结果,当目标结果表示该告警事件上报成功,则说明告警不一致的问题出现在网络管理系统侧,当目标结果显示该告警事件上报失败,则说明告警不一致的问题出现在网络设备侧,且能够准确定位到网络设备侧中具体的上报失败的原因。例如,该告警轨迹信息显示缺失转发引擎实例组件的时间信息,则上报失败的原因在于转发引擎实例对告警信息处理失败,导致未能成功上报。
可选地,上述图6所示的实施例还能够用于定位网络设备告警上报慢的原因。例如,基于获取到的告警事件的告警轨迹信息,对该告警轨迹信息中的各个时间信息进行处理,得到该告警事件的上报过程中每个组件在处理告警信息时的时长,定位网络设备在告警上报过程中处理时长大于预设阈值的组件,也即得到了网络设备告警上报慢的原因。
本申请实施例提供了一种处理告警问题的方法,在出现相关告警问题时,确定该告警问题所对应的告警序列号,并获取与该告警序列号所对应的告警轨迹信息,不仅能够实现对网络设备侧告警与网络管理侧告警不一致原因的准确定位,还能够准确定位网络设备告警上报慢的原因。
以上介绍了本申请实施例提供的一种网络设备告警处理方法,以下介绍本申请实施例的网络设备告警处理装置,应理解,该网络设备告警处理装置具有上述网络设备告警处理方法中网络设备的任意功能。
图7是本申请实施例提供的一种网络设备告警处理装置的结构示意图,该装置用于执行上述网络设备告警处理方法执行时的步骤,参见图7,装置包括:接收模块701、第一生成模块702、第一发送模块703以及第二生成模块704。
接收模块701,用于接收第一告警信息,该第一告警信息包括产生告警事件的业务应用的应用信息和该告警事件的产生时间;
第一生成模块702,用于基于该第一告警信息,生成第二告警信息,该第二告警信息包括该第一告警信息和告警序列号,该告警序列号用于唯一标识该告警事件;
第一发送模块703,用于发送该第二告警信息;
第二生成模块704,用于基于该第一告警信息和该第二告警信息在该网络设备内的传输路径,生成该告警事件对应的告警轨迹信息,该告警轨迹信息包括该传输路径中各个组件所传输的告警信息以及对该告警信息的接收时间和发送时间。
可选地,该第一发送模块703用于:
该网络设备中的故障管理组件通过该传输路径中的至少一个通信组件,将该第二告警信息发送给网络管理系统,该故障管理组件用于对该网络设备发生的故障进行管理,该通信组件用于在接收到该第二告警信息后,将该第二告警信息发送至下一个通信组件,并记录该第二告警信息、该通信组件对该第二告警信息的接收时间和发送时间。
可选地,该第一发送模块703用于:
该故障管理组件将该第二告警信息发送给该传输路径中的至少一个通信组件中的SNMP组件,该SNMP组件用于在该网络设备中基于SNMP协议提供各组件之间的通信服务;
该SNMP组件接收该第二告警信息,通过内存缓存数据块,将该第二告警信息经过该传输路径中的至少一个通信组件的传递,发送给该网络管理系统。
可选地,该第二生成模块704用于:
该网络设备中的SNMP组件向该网络设备中的套接字组件发送查询请求,该套接字用于在该网络设备中提供两个组件间实现交换数据的通信服务,该查询请求用于获取该传输路径中各个组件对应的时间信息,该查询请求携带该第二告警信息;
该套接字组件基于该查询请求,向该传输路径中各个组件发送时间信息获取请求,接收该各个组件对应的时间信息,并将获取到的该各个组件对应的时间信息发送给该SNMP组件,该时间信息包括该传输路径中任一组件所传输的告警信息以及该任一组件对该告警信息的接收时间和发送时间;
该SNMP组件接收由该套接字组件所发送的该各个组件对应的时间信息;
该SNMP组件基于该各个组件对应的时间信息以及该第二告警信息,生成该告警事件对应的告警轨迹信息。
可选地,该装置还包括:
检测模块,用于该网络设备中的业务应用组件检测到该网络设备产生该告警事件,该业务应用组件用于在该网络设备中提供业务处理服务,该告警事件是指该网络设备发生故障;
第三生成模块,用于该业务应用组件生成第一告警信息,该第一告警信息包括产生该告警事件的业务应用的应用信息和该告警事件的产生时间;
第二发送模块,用于该业务应用组件将该第一告警信息发送给该网络设备中的信息管理组件,该信息管理组件用于在该网络设备中提供实时信息处理的服务;
第四生成模块,用于该业务应用组件基于该第一告警信息,生成第一时间信息,并将该第一时间信息进行存储,该第一时间信息包括该第一告警信息以及该业务应用组件对该第一告警信息的发送时间;
第三发送模块,用于该信息管理组件接收该第一告警信息,并将该第一告警信息发送给该网络设备中的故障管理组件。
可选地,该装置还包括:
第五生成模块,用于该信息管理组件基于该第一告警信息,生成第二时间信息,并将该第二时间信息进行存储,该第二时间信息包括该第一告警信息以及该信息管理组件对该第一告警信息的接收时间和发送时间。
可选地,该装置还包括:
第六生成模块,用于该故障管理组件基于该第二告警信息,生成第三时间信息,并将该第三时间信息进行存储,该第三时间信息包括该第二告警信息、该故障管理组件对该第一告警信息的接收时间以及对该第二告警信息的发送时间。
可选地,该装置还包括:
获取模块,用于基于该告警序列号,获取该告警事件的告警轨迹信息;
确定模块,用于基于该告警轨迹信息,确定该告警事件的目标结果,该目标结果用于指示该告警事件是否产生并上报至该网络管理系统;
第四发送模块,用于将该目标结果发送至该网络管理系统。
本实施例提供了一种网络设备告警处理装置,在网络设备产生告警事件、生成告警信息、并上报至网络管理系统NMS的过程中,告警信息在网络设备中按照传输路径进行传输,当告警信息经过传输路径上的任一个组件时,将该组件处理告警信息的时间进行记录,另外,生成能够唯一标识该告警事件的告警序列号,最终得到该告警事件的告警轨迹信息。上述方法记录了网络设备从产生告警到上报告警的过程中所有的时间信息,基于此,能够准确判断网络设备是否将告警成功上报至NMS,进一步地,实现对网络设备侧告警与NMS侧告警不一致原因的准确定位。
网络设备告警处理实体装置对应于上述网络设备告警处理方法中的网络设备执行主体,网络设备告警处理实体装置中的各硬件、模块和上述其他操作和/或功能分别为了实现方法实施例中网络设备执行主体所实施的各种步骤和方法,关于网络设备告警处理实体装置如何对网络设备告警进行处理的详细流程,具体细节可参见上述网络设备告警处理方法,为了简洁,在此不再赘述。其中,网络设备告警处理方法的各步骤通过网络设备告警处理实体装置处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的网络设备告警处理方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块例如位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述网络设备告警处理方法的步骤,为避免重复,这里不再详细描述。
在一些可能的实施例中,上述网络设备还可以使用计算机程序产品实现。具体地,本申请实施例提供了一种计算机程序产品,当该计算机程序产品在网络设备上运行时,使得网络设备执行上述方法实施例中的网络设备告警处理方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例中描述的各方法步骤和单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参见前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例中方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如,在不脱离各种所述示例的范围的情况下,第一图像可以被称为第二图像,并且类似地,第二图像可以被称为第一图像。第一图像和第二图像都可以是图像,并且在某些情况下,可以是单独且不同的图像。
本申请中术语“至少一个”的含义是指一个或多个,本申请中术语“多个”的含义是指两个或两个以上,例如,多个第二报文是指两个或两个以上的第二报文。本文中术语“系统”和“网络”经常可互换使用。
还应理解,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
以上描述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机程序指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例中的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如,数字视频光盘(digital video disc,DVD)、或者半导体介质(例如固态硬盘)等。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (16)

1.一种网络设备告警处理方法,其特征在于,应用于网络设备,所述方法包括:
接收第一告警信息,所述第一告警信息包括产生告警事件的业务应用的应用信息和所述告警事件的产生时间;
基于所述第一告警信息,生成第二告警信息,所述第二告警信息包括所述第一告警信息和告警序列号,所述告警序列号用于唯一标识所述告警事件;
所述网络设备中的故障管理组件通过所述第二告警信息在所述网络设备内的传输路径中的至少一个通信组件,将所述第二告警信息发送给网络管理系统,所述故障管理组件用于对所述网络设备发生的故障进行管理,所述通信组件用于在接收到所述第二告警信息后,将所述第二告警信息发送至下一个通信组件,并记录所述第二告警信息、所述通信组件对所述第二告警信息的接收时间和发送时间;
基于所述第一告警信息和所述传输路径,生成所述告警事件对应的告警轨迹信息,所述告警轨迹信息包括所述传输路径中各个组件所传输的告警信息以及对所述告警信息的接收时间和发送时间。
2.根据权利要求1所述的方法,其特征在于,所述网络设备中的故障管理组件通过所述传输路径中的至少一个通信组件,将所述第二告警信息发送给网络管理系统包括:
所述故障管理组件将所述第二告警信息发送给所述传输路径中的至少一个通信组件中的简单网络管理协议SNMP组件,所述SNMP组件用于在所述网络设备中基于SNMP协议提供各组件之间的通信服务;
所述SNMP组件接收所述第二告警信息,通过内存缓存数据块,将所述第二告警信息经过所述传输路径中的至少一个通信组件的传递,发送给所述网络管理系统。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一告警信息和所述第二告警信息在所述网络设备内的传输路径,生成所述告警事件对应的告警轨迹信息包括:
所述网络设备中的SNMP组件向所述网络设备中的套接字组件发送查询请求,所述套接字用于在所述网络设备中提供两个组件间实现交换数据的通信服务,所述查询请求用于获取所述传输路径中各个组件对应的时间信息,所述查询请求携带所述第二告警信息;
所述套接字组件基于所述查询请求,向所述传输路径中各个组件发送时间信息获取请求,接收所述各个组件对应的时间信息,并将获取到的所述各个组件对应的时间信息发送给所述SNMP组件,所述时间信息包括所述传输路径中任一组件所传输的告警信息以及所述任一组件对所述告警信息的接收时间和发送时间;
所述SNMP组件接收由所述套接字组件所发送的所述各个组件对应的时间信息;
所述SNMP组件基于所述各个组件对应的时间信息以及所述第二告警信息,生成所述告警事件对应的告警轨迹信息。
4.根据权利要求1所述的方法,其特征在于,所述接收第一告警信息之前,所述方法还包括:
所述网络设备中的业务应用组件检测到所述网络设备产生所述告警事件,所述业务应用组件用于在所述网络设备中提供业务处理服务,所述告警事件是指所述网络设备发生故障;
所述业务应用组件生成第一告警信息,所述第一告警信息包括产生所述告警事件的业务应用的应用信息和所述告警事件的产生时间;
所述业务应用组件将所述第一告警信息发送给所述网络设备中的信息管理组件,所述信息管理组件用于在所述网络设备中提供实时信息处理的服务;
所述业务应用组件基于所述第一告警信息,生成第一时间信息,并将所述第一时间信息进行存储,所述第一时间信息包括所述第一告警信息以及所述业务应用组件对所述第一告警信息的发送时间;
所述信息管理组件接收所述第一告警信息,并将所述第一告警信息发送给所述网络设备中的故障管理组件。
5.根据权利要求4所述的方法,其特征在于,所述信息管理组件接收所述第一告警信息,并将所述第一告警信息发送给所述网络设备中的故障管理组件之后,所述方法还包括:
所述信息管理组件基于所述第一告警信息,生成第二时间信息,并将所述第二时间信息进行存储,所述第二时间信息包括所述第一告警信息以及所述信息管理组件对所述第一告警信息的接收时间和发送时间。
6.根据权利要求2所述的方法,其特征在于,所述故障管理组件将所述第二告警信息发送给所述传输路径中的至少一个通信组件中的SNMP组件之后,所述方法还包括:
所述故障管理组件基于所述第二告警信息,生成第三时间信息,并将所述第三时间信息进行存储,所述第三时间信息包括所述第二告警信息、所述故障管理组件对所述第一告警信息的接收时间以及对所述第二告警信息的发送时间。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述告警序列号,获取所述告警事件的告警轨迹信息;
基于所述告警轨迹信息,确定所述告警事件的目标结果,所述目标结果用于指示所述告警事件是否产生并上报至所述网络管理系统;
将所述目标结果发送至所述网络管理系统。
8.一种网络设备告警处理装置,其特征在于,所述装置包括:
接收模块,用于接收第一告警信息,所述第一告警信息包括产生告警事件的业务应用的应用信息和所述告警事件的产生时间;
第一生成模块,用于基于所述第一告警信息,生成第二告警信息,所述第二告警信息包括所述第一告警信息和告警序列号,所述告警序列号用于唯一标识所述告警事件;
第一发送模块,用于网络设备中的故障管理组件通过所述第二告警信息在所述网络设备内的传输路径中的至少一个通信组件,将所述第二告警信息发送给网络管理系统,所述故障管理组件用于对所述网络设备发生的故障进行管理,所述通信组件用于在接收到所述第二告警信息后,将所述第二告警信息发送至下一个通信组件,并记录所述第二告警信息、所述通信组件对所述第二告警信息的接收时间和发送时间;
第二生成模块,用于基于所述第一告警信息和所述传输路径,生成所述告警事件对应的告警轨迹信息,所述告警轨迹信息包括所述传输路径中各个组件所传输的告警信息以及对所述告警信息的接收时间和发送时间。
9.根据权利要求8所述的装置,其特征在于,所述第一发送模块用于:
所述故障管理组件将所述第二告警信息发送给所述传输路径中的至少一个通信组件中的SNMP组件,所述SNMP组件用于在所述网络设备中基于SNMP协议提供各组件之间的通信服务;
所述SNMP组件接收所述第二告警信息,通过内存缓存数据块,将所述第二告警信息经过所述传输路径中的至少一个通信组件的传递,发送给所述网络管理系统。
10.根据权利要求8所述的装置,其特征在于,所述第二生成模块用于:
所述网络设备中的SNMP组件向所述网络设备中的套接字组件发送查询请求,所述套接字用于在所述网络设备中提供两个组件间实现交换数据的通信服务,所述查询请求用于获取所述传输路径中各个组件对应的时间信息,所述查询请求携带所述第二告警信息;
所述套接字组件基于所述查询请求,向所述传输路径中各个组件发送时间信息获取请求,接收所述各个组件对应的时间信息,并将获取到的所述各个组件对应的时间信息发送给所述SNMP组件,所述时间信息包括所述传输路径中任一组件所传输的告警信息以及所述任一组件对所述告警信息的接收时间和发送时间;
所述SNMP组件接收由所述套接字组件所发送的所述各个组件对应的时间信息;
所述SNMP组件基于所述各个组件对应的时间信息以及所述第二告警信息,生成所述告警事件对应的告警轨迹信息。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
检测模块,用于所述网络设备中的业务应用组件检测到所述网络设备产生所述告警事件,所述业务应用组件用于在所述网络设备中提供业务处理服务,所述告警事件是指所述网络设备发生故障;
第三生成模块,用于所述业务应用组件生成第一告警信息,所述第一告警信息包括产生所述告警事件的业务应用的应用信息和所述告警事件的产生时间;
第二发送模块,用于所述业务应用组件将所述第一告警信息发送给所述网络设备中的信息管理组件,所述信息管理组件用于在所述网络设备中提供实时信息处理的服务;
第四生成模块,用于所述业务应用组件基于所述第一告警信息,生成第一时间信息,并将所述第一时间信息进行存储,所述第一时间信息包括所述第一告警信息以及所述业务应用组件对所述第一告警信息的发送时间;
第三发送模块,用于所述信息管理组件接收所述第一告警信息,并将所述第一告警信息发送给所述网络设备中的故障管理组件。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第五生成模块,用于所述信息管理组件基于所述第一告警信息,生成第二时间信息,并将所述第二时间信息进行存储,所述第二时间信息包括所述第一告警信息以及所述信息管理组件对所述第一告警信息的接收时间和发送时间。
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第六生成模块,用于所述故障管理组件基于所述第二告警信息,生成第三时间信息,并将所述第三时间信息进行存储,所述第三时间信息包括所述第二告警信息、所述故障管理组件对所述第一告警信息的接收时间以及对所述第二告警信息的发送时间。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
获取模块,用于基于所述告警序列号,获取所述告警事件的告警轨迹信息;
确定模块,用于基于所述告警轨迹信息,确定所述告警事件的目标结果,所述目标结果用于指示所述告警事件是否产生并上报至所述网络管理系统;
第四发送模块,用于将所述目标结果发送至所述网络管理系统。
15.一种网络设备,其特征在于,所述网络设备包括处理器和存储器,所述存储器用于存储至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行如权利要求1至7任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储至少一段程序代码,所述至少一段程序代码用于执行如权利要求1至权利要求7中任一项所述的方法。
CN202011163805.XA 2020-10-27 2020-10-27 网络设备告警处理方法、装置、设备及存储介质 Active CN114513398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011163805.XA CN114513398B (zh) 2020-10-27 2020-10-27 网络设备告警处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011163805.XA CN114513398B (zh) 2020-10-27 2020-10-27 网络设备告警处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114513398A CN114513398A (zh) 2022-05-17
CN114513398B true CN114513398B (zh) 2023-12-15

Family

ID=81546393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011163805.XA Active CN114513398B (zh) 2020-10-27 2020-10-27 网络设备告警处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114513398B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106201837A (zh) * 2016-07-19 2016-12-07 电信科学技术第五研究所 一种集成化硬件平台的日志解析方法和系统
CN109951345A (zh) * 2019-04-16 2019-06-28 新华三信息安全技术有限公司 一种告警处理方法及装置
CN109951306A (zh) * 2017-12-20 2019-06-28 中国移动通信集团湖北有限公司 告警的处理方法、装置、设备及介质
CN210716984U (zh) * 2019-06-05 2020-06-09 中国石油天然气股份有限公司 管道检测装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2688739C2 (ru) * 2017-09-04 2019-05-22 ООО "Ай Ти Ви групп" Системы и способы обнаружения тревожных траекторий движения объектов

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106201837A (zh) * 2016-07-19 2016-12-07 电信科学技术第五研究所 一种集成化硬件平台的日志解析方法和系统
CN109951306A (zh) * 2017-12-20 2019-06-28 中国移动通信集团湖北有限公司 告警的处理方法、装置、设备及介质
CN109951345A (zh) * 2019-04-16 2019-06-28 新华三信息安全技术有限公司 一种告警处理方法及装置
CN210716984U (zh) * 2019-06-05 2020-06-09 中国石油天然气股份有限公司 管道检测装置

Also Published As

Publication number Publication date
CN114513398A (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN110036600B (zh) 网络健康数据汇聚服务
CN110036599B (zh) 网络健康信息的编程接口
CN113328872B (zh) 故障修复方法、装置和存储介质
US8583779B2 (en) Root cause analysis approach with candidate elimination using network virtualization
US10862777B2 (en) Visualization of network health information
US10243820B2 (en) Filtering network health information based on customer impact
US10430257B2 (en) Alarms with stack trace spanning logical and physical architecture
US10868709B2 (en) Determining the health of other nodes in a same cluster based on physical link information
US20100293270A1 (en) Use Tag Clouds to Visualize Components Related to an Event
US7788520B2 (en) Administering a system dump on a redundant node controller in a computer system
CN112737800B (zh) 服务节点故障定位方法、调用链生成方法及服务器
WO2017215441A1 (zh) 一种分布式系统中单板配置自恢复方法及装置
WO2019242487A1 (zh) 一种故障管理方法和相关装置
US20240048468A1 (en) Traffic monitoring method and apparatus for open stack tenant network
CN109997337B (zh) 网络健康信息的可视化
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
JP2013222313A (ja) 障害連絡効率化システム
CN114513398B (zh) 网络设备告警处理方法、装置、设备及存储介质
US7475076B1 (en) Method and apparatus for providing remote alert reporting for managed resources
TWI698741B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法
CN111258845A (zh) 事件风暴的检测
TW202026882A (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法(一)
CN111414267A (zh) 运用于数据中心的机柜异常状态的远端排除方法
WO2024087692A1 (zh) 设备管理方法、设备、系统和存储介质
KR100235570B1 (ko) 2이상의 주전산기를 병립 연결한 시스템의 클러스터 관리 마스터 시스템의 클러스터 관리방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant