CN116208467A - 传输网故障智能流水线闭环处理方法和装置 - Google Patents

传输网故障智能流水线闭环处理方法和装置 Download PDF

Info

Publication number
CN116208467A
CN116208467A CN202310215216.9A CN202310215216A CN116208467A CN 116208467 A CN116208467 A CN 116208467A CN 202310215216 A CN202310215216 A CN 202310215216A CN 116208467 A CN116208467 A CN 116208467A
Authority
CN
China
Prior art keywords
fault
node
flow
alarm
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310215216.9A
Other languages
English (en)
Inventor
白泽刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Optical Network Information Technology Co ltd
Original Assignee
Wuhan Optical Network Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Optical Network Information Technology Co ltd filed Critical Wuhan Optical Network Information Technology Co ltd
Priority to CN202310215216.9A priority Critical patent/CN116208467A/zh
Publication of CN116208467A publication Critical patent/CN116208467A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种传输网故障智能流水线闭环处理方法:对故障类型进行划分,将各种故障场景进行二级分类;采用知识分析方法,通过故障处理案例和故障处理用户帮助文本生成典型故障分析处理流程通用节点和流程;根据网管系统管理的传输网络拓扑、配置、运行状态,生成仿真网络环境;构建传输网故障智能流水线;构建故障智能流水线节点运行状态监控器和调度器,负责流水线执行的状态监控和异常处理调度;构建流水线节点运行状态监控器和调度器,所述状态监控器负责进行节点运行状态监控,所述调度器负责异常处理,以及提供故障处理流程人工编排调整功能。本发明还提供了相应的传输网故障智能流水线闭环处理装置。

Description

传输网故障智能流水线闭环处理方法和装置
技术领域
本发明属于智能运维技术领域,更具体地,涉及一种传输网故障智能流水线闭环处理方法和装置。
背景技术
随着传输网络的智能化发展,电信管理论坛(Tele Management Forum,TMF)提出了自治网络(Autonomy Network)的概念和一系列标准建议。自治网络对传输网络故障智能处理提出了更高的要求,需要实现故障智能处理的自动化和智能化,因此需要传输网故障从告警产生到故障消除形成全周期闭环,从传统人工、半人工、多环节、多步骤的配合处理,发展成为故障自动化、智能化的闭环处理,从而提升故障分析和处理效率,减少对故障维护人员经验的强依赖,进而降低网络运营维护成本。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种传输网故障智能流水线闭环处理方法和装置,以实现故障自动化、智能化的闭环处理,从而提升故障分析和处理效率,减少对故障维护人员经验的强依赖,进而降低网络运营维护成本。
为实现上述目的,按照本发明的一个方面,提供了一种传输网故障智能流水线闭环处理方法,所述方法包括如下步骤:
对故障类型进行划分,将各种故障场景进行二级分类;采用知识分析方法,通过故障处理案例和故障处理用户帮助文本生成典型故障分析处理流程通用节点和流程;根据网管系统管理的传输网络拓扑、配置、运行状态,生成仿真网络环境;
构建传输网故障智能流水线,包含告警产生节点、告警上报节点、告警量压减节点、根告警定位节点、故障分析识别节点、故障处理方案节点、故障处理执行节点、故障消除节点;构建故障智能流水线节点运行状态监控器和调度器,负责流水线执行的状态监控和异常处理调度;
构建流水线节点运行状态监控器和调度器,所述状态监控器负责进行节点运行状态监控,所述调度器负责异常处理,以及提供故障处理流程人工编排调整功能。
本发明的一个实施例中,所述对故障类型进行划分,将各种故障场景进行二级分类,具体包括:
故障场景采用二级分类方法,第一级根据发生故障对象在网络中的角色来划分,分为业务类、设备类、线路类、环境类、网管类;
第二级场景是在第一级场景下根据故障具体影响和故障根因来划分;
业务类二级场景分为光层业务中断、电层业务中断、隧道层业务中断、伪线层业务中断和客户层业务中断、光层业务性能劣化、电层业务性能劣化、隧道层业务性能劣化、伪线层业务性能劣化和客户层业务性能劣化、保护组故障;
设备类二级场景分为单盘失效、主备盘倒换失败、电源盘故障、业务盘信号丢失、防雷模块失效、设备掉电、模块老化;
线路类二级场景分为线路中断、线路光功率异常、线路衰耗过大、线路中继类、尾纤类;
环境类二级场景分为温度异常、电压异常、湿度异常;
网管类二级场景网元脱管、单盘脱管、DCN网络异常、网管服务异常;
故障类型由故障场景的一、二级组合值确定。
本发明的一个实施例中,所述采用知识分析方法,通过故障处理案例和故障处理用户帮助文本生成典型故障分析处理流程通用节点和流程,具体包括:
对故障处理案例和用户帮助文本的标题采用故障类型方式,每条描述信息中格式要求如下:“编号+动作+具体对象+结果判断分支+分支下一步编号”,其中对于纯操作类语句,只有“编号+动作+具体对象”;
每类动作和对象+结果判断可以生成故障分析处理流程通用节点,流程通用节点分为故障排查和故障恢复两个大类;每个大类又分为网络通用类、OTN网络类、分组网络类;将这些分析的流程通用节点去重后放入流程通用节点组件库;
每个流程通用节点标识为自动化节操作和人工操作;自动化操作节点可以通过程序自动化在线执行,这类节点需要对应开发软件代码来实现该功能,并且对外提供带参数的调用接口来调用执行该操作;人工操作节点当前需要人工离线操作后将结果录入到系统中;
通过故障处理案例和故障处理用户帮助文本的分析,同时还生成了以根告警和衍生告警码为索引的故障排查流程表和以故障场景为索引的故障恢复流程表,都存入流程通用节点组件库。
本发明的一个实施例中,所述根据网管系统管理的传输网络拓扑、配置、运行状态,生成仿真网络环境,具体包括:
根据故障管理的传输网络拓扑范围,启动网络仿真服务,并且同步当前网络节点的配置、运行状态,生成可通过管控系统操作的仿真网络环境;故障排查中故障恢复类节点操作,在排查中都在仿真网络环境进行。
本发明的一个实施例中,
所述告警产生节点:负责采集网元设备节点上的告警信息,并对采集的信息进行去重处理,并将采集到的信息传送给告警上报节点;该节点部署在网元设备上;
所述告警上报节点:将获取的告警信息通过与管控系统约定的上报协议,将告警信息上报给管控系统,并将告警信息存入原始告警信息数据库,同时将告警信息传递给告警量压减节点;该节点由两部分组成,分为服务端和客户端,服务端部署在网元设备上,负责告警信息的协议组装和发送,客户端部署在管控系统上,负责告警信息的接收和协议解封;
所述告警量压减节点:负责将接收的告警信息根据压减策略,将告警信息去重、去除震荡告警,并将处理后的告警信息传递给根告警定位节点;
所述根告警定位节点:负责根据网络拓扑信息、业务路径信息、告警静态根衍关系、告警发生时间和获取到的告警信息,将一组告警分析出根衍关系,确定根告警和衍生告警,并将这一组根衍关系传递给故障分析识别节点;
所述故障分析识别节点:根据一组根告警和衍生告警,在流程通用节点组件库中查找对应故障排查流程,并根据流程调取相应的流程通用节点组件来实例化执行;从而排查出故障根因,确定故障场景;并将故障场景传递给故障处理方案节点;
所述故障处理方案节点:根据故障场景在流程通用节点组件库中查找对应的故障恢复流程,并根据流程调取相应的故障恢复流程通用节点组件来实例化,生成故障处理方案,提供给故障处理执行节点;
所述故障处理执行节点:该节点按照故障处理方案在仿真网络环境执行,并评估执行结果;在仿真网络环境执行后故障消除后,才能在真实物理网络环境执行,执行完毕后通知故障消除节点;
所述故障消除节点:收到故障执行节点发送的某故障处理执行完毕的通知后,确认该故障消除,并将故障数据存入历史故障库。
本发明的一个实施例中,所述故障分析识别、故障处理方案、故障处理执行、故障消除的具体执行方法为:
(3.1)所述故障分析识别根据根告警定位确定的一个或多个根告警,结合故障分析处理通用节点组件库中的分析排查节点和流程,确定所属故障类型;
(3.2)所述故障处理方案根据故障场景类型作为索引,从流程通用节点组件库的故障恢复流程表找到对应的故障恢复流程,按照故障恢复流程中记录的流程通用节点执行顺序,确定每个节点的实例化参数,生成故障处理方案;
(3.3)所述故障处理执行是按照上述(3.2)中生成的故障处理方案,在仿真网络环境进行执行,显示和评估每个节点执行结果,从而评估整个故障处理方案是否有效;如果有效则转(3.4),无效则(3.5);通过流水线节点运行状态监控器和调度器进行故障处理流程人工编排调整;
(3.4)所述故障消除是将(3.3)中在仿真网络环境中的故障处理方案在真实网络环境执行,消除故障;
(3.5)通过流水线节点运行状态监控器和调度器进行故障处理流程编排调整形成调整后的故障处理方案,再转(3.3)执行。
本发明的一个实施例中,所述故障分析识别具体包括:
根据根告警定位确定的一个或多个根告警,生成“故障排查表告警代码索引”,从流程通用节点组件库的故障排查流程表中找到对应的故障排查流程,按照故障排查流程中记录的流程通用节点执行顺序,确定每个节点的实例化参数,进行调用执行,并最终排查出故障根因,从而确定所属故障类型。
8.如权利要求1或2所述的传输网故障智能流水线闭环处理方法,其特征在于,所述构建故障智能流水线节点运行状态监控器和调度器,具体包括:
状态监控器负责监控所述所有节点运行的状态监控,记录和显示流程执行的当前节点和状态;当管控系统运行异常或某个用户关闭系统重新登录后,调度器负责在当前节点下继续运行该流程。
本发明的一个实施例中,所述状态监控器还负责监控各流程和节点执行的异常,对服务异常的节点进行快速重启,所述调度器还提供人工编排服务,来优化节点的执行流程。
按照本发明的另一方面,还提供了一种传输网故障智能流水线闭环处理装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成所述的传输网故障智能流水线闭环处理方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)本发明构建传输网故障智能流水线,定义流水线节点,实现故障端到端闭环处理;
(2)本发明提供了故障分析识别、故障处理方案、故障处理执行、到故障消除等关键节点处理方法;
(3)本发明实现传输网故障智能流水线,提升了故障恢复的自动化水平,从而提升网络维护效率。
附图说明
图1是本发明实施例中传输网故障智能流水线闭环处理方法的流程示意图;
图2是本发明实施例中传输网故障智能流水线闭环处理节点的运行原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了解决现有技术存在的问题,本发明定义从告警产生、告警上报、告警量压减、根告警定位、故障分析识别、故障处理方案、故障处理执行、到故障消除这条故障处理的故障闭环处理各节点,通过引入自动化、智能化技术,形成一种传输网故障智能流水线闭环处理方案。
如图1所示,本发明提供了一种传输网故障智能流水线闭环处理方法,包括如下步骤:
(1)对故障类型进行划分,将各种故障场景进行二级分类;采用知识分析方法,通过故障处理案例和故障处理用户帮助文本生成典型故障分析处理流程通用节点和流程;根据网管系统管理的传输网络拓扑、配置、运行状态,生成仿真网络环境。具体地,包括:
(1.1)故障类型划分,将各种故障场景进行二级分类。
故障场景采用二级分类方法,第一级根据发生故障对象在网络中的角色来划分,分为业务类、设备类、线路类、环境类、网管类。
第二级场景是在第一级场景下根据故障具体影响和故障根因来划分。
业务类二级场景分为光层业务中断、电层业务中断、隧道层业务中断、伪线层业务中断和客户层业务中断、光层业务性能劣化、电层业务性能劣化、隧道层业务性能劣化、伪线层业务性能劣化和客户层业务性能劣化、保护组故障等。
设备类二级场景分为单盘失效、主备盘倒换失败、电源盘故障、业务盘信号丢失、防雷模块失效、设备掉电、模块老化等。
线路类二级场景分为线路中断、线路光功率异常、线路衰耗过大、线路中继类、尾纤类等。
环境类二级场景分为温度异常、电压异常、湿度异常等。
网管类二级场景网元脱管、单盘脱管、DCN(数据通信网络,Data CommunicationNetwork)网络异常、网管服务异常等。
故障场景分类是根据根告警与衍生告警,结合故障原因分析排查经验划分的,并且不同网络新型故障的产生和根据人工故障原因分析排查、处理经验的积累,可以通过对故障点的经验扩充还扩充二级场景的分类。
故障类型由故障场景的一、二级组合值确定。
(1.2)采用知识分析方法,通过故障处理案例和故障处理用户帮助文本生成典型故障分析处理流程通用节点和流程。
对故障处理案例和用户帮助文本的标题采用故障类型方式,每条描述信息中格式要求如下:
“编号+动作+具体对象+结果判断分支+分支下一步编号”,其中对于纯操作类语句,只有“编号+动作+具体对象”。
每类动作和对象+结果判断可以生成故障分析处理流程通用节点,流程通用节点分为故障排查和故障恢复两个大类。每个大类又分为网络通用类、OTN(光传送网,OpticalTransport Network)网络类、分组网络类等。将这些分析的流程通用节点去重后放入流程通用节点组件库。
另外,每个流程通用节点标识为自动化节操作和人工操作。自动化操作节点可以通过程序自动化在线执行,这类节点需要对应开发软件代码来实现该功能,并且对外提供带参数的调用接口来调用执行该操作,如检查告警节点等;人工操作节点当前需要人工离线操作后将结果录入到系统中,如检查尾纤节点等。
如一个分组网络网元A上某XGE线路盘上光口P1上报R_LOS和LINK_LOS告警,同时发生大量隧道业务倒换告警,网管系统对告警进行根因分析结果是R_LOS为根告警,LINK_LOS为一级衍生告警,隧道业务倒换告警为二级衍生告警,维护人员对该故障处理结果是光缆中断,熔接光纤后恢复,案例总结为“线路类-线路中断”故障类型,该案例生成流程通用节点举例如下表所示:
表1线路类-线路中断故障类型
Figure BDA0004114671510000081
/>
Figure BDA0004114671510000091
Figure BDA0004114671510000101
采用知识分析方法,通过故障处理案例和故障处理用户帮助文本的分析,同时还生成了以根告警和衍生告警码为索引的故障排查流程表和以故障场景为索引的故障恢复流程表,都存入流程通用节点组件库。
每个自动化操作节点会开发一个接口函数,完成执行操作,如“检查告警”定义为:
bool checkAlarm(int objectID,int alarmType)
{
执行找到该对象的告警,判断是否有该告警存在;
}
如上表中案例,会生成以R_LOS告警代码和在根衍关系树中一级衍生告警代码为索引的1-9处理流程表。
注意:根告警可能有多个,一级衍生告警可能有多个,为了增加生成和查询的效率,索引采用8字节整数实现,最多采用4个告警代码作为索引,如下:
表2故障排查流程表告警代码索引
Figure BDA0004114671510000102
如上表中案例,会生成以故障场景为索引的故障恢复流程表,如索引为线路类-线路中断故障类型对应的两个字段值,故障恢复流程仅包含“处理光缆”节点和“流程结束”两个节点。
(1.3)根据网管系统管理的传输网络拓扑、配置、运行状态,生成仿真网络环境。
根据故障管理的传输网络拓扑范围,启动网络仿真服务,并且同步(具体可手动或定时同步)当前网络节点(含单盘)的配置、运行状态(包含单盘状态、当前告警、当前性能等信息),生成可通过管控系统操作的仿真网络环境。
故障排查中故障恢复类节点操作,在排查中都是在仿真网络环境进行的(这里要求故障处理执行的排查过程要在仿真网络操作,只有确定了故障处理执行确认在仿真网络有效消除故障后,才能在物理网络执行)。
(2)构建传输网故障智能流水线,实现故障闭环处理;其中故障智能流水线包含告警产生节点、告警上报节点、告警量压减节点、根告警定位节点、故障分析识别节点、故障处理方案节点、故障处理执行节点、故障消除节点;构建故障智能流水线节点运行状态监控器和调度器,负责流水线执行的状态监控和异常处理调度。具体地,如图2所示,包括:
故障智能流水线包含告警产生、告警上报、告警量压减、根告警定位、故障分析识别、故障处理方案、故障处理执行、故障消除八个节点。
所述告警产生节点:负责采集网元设备节点上的告警信息,并对采集的信息进行去重处理,并将采集到的信息传送给告警上报节点。该节点部署在网元设备上。
所述告警上报节点:将获取的告警信息通过与管控系统约定的上报协议,将告警信息上报给管控系统,并将告警信息存入原始告警信息数据库,同时将告警信息传递给告警量压减节点。该节点由两部分组成,分为服务端和客户端,服务端部署在网元设备上,主要负责告警信息的协议组装和发送,客户端部署在管控系统上,主要负责告警信息的接收和协议解封。
所述告警量压减节点:负责将接收的告警信息根据压减策略,将告警信息去重、去除震荡告警等工作,并将处理后的告警信息传递给根告警定位节点。
所述根告警定位节点:负责根据网络拓扑信息、业务路径信息、告警静态根衍关系(可由人工经验和AI训练产生)、告警发生时间和获取到的告警信息,将一组告警分析出根衍关系,确定根告警和衍生告警,并将这一组根衍关系传递给故障分析识别节点。
所述故障分析识别节点:根据一组根告警和衍生告警,在步骤(1)的(1.2)中的流程通用节点组件库中查找对应故障排查流程,并根据流程调取相应的流程通用节点组件来实例化执行。从而排查出故障根因,确定故障场景。并将故障场景传递给故障处理方案节点。
所述故障处理方案节点:根据故障场景在流程通用节点组件库中查找对应的故障恢复流程,并根据流程调取相应的故障恢复流程通用节点组件来实例化,生成故障处理方案,提供给故障处理执行节点。
所述故障处理执行节点:该节点按照故障处理方案在仿真网络环境(仿真网络是用来故障处理执行排查和确认有效消除故障的,是为了在确定有效方案前不影响物理网络。仿真网络要尽量和需要操作的物理网络中的局部网络高度相似,网元和单盘的模拟软件和物理网元上的软件版本要一致、网元和单盘配置信息同步、状态同步、当前告警同步)执行,并评估执行结果。在仿真网络环境执行后故障消除后,才能在真实物理网络环境执行,执行完毕后通知故障消除节点。
所述故障消除节点:收到故障执行节点发送的某故障处理执行完毕的通知后,确认该故障消除,并将故障数据存入历史故障库。
(3)构建流水线节点运行状态监控器和调度器,所述状态监控器负责进行节点运行状态监控,所述调度器负责异常处理,以及提供故障处理流程人工编排调整功能。
状态监控器负责监控上述步骤(2)的所有节点运行的状态监控,记录和显示流程执行的当前节点和状态。当管控系统运行异常或某个用户关闭系统重新登录后,调度器负责在当前节点下继续运行该流程。
状态监控器还负责监控各流程和节点执行的异常,对服务异常的节点快速重启。
调度器还提供人工编排服务,可以通过人工编排故障分析识别节点和故障处理方案节点的执行子流程,可以在子流程中省略或增加某些流程通用节点组件。这些通过编排的故障分析识别流程和故障处理方案流程,可以由用户选择是否存入故障排查流程表和故障恢复流程表。
流水线节点运行,一方面负责进行节点运行状态监控和异常处理,另一方面提供故障处理流程人工编排调整功能。具体地,
告警产生和告警上报可采用目前通用的成熟技术是实现;告警量压减采用去除重复告警、抑制震荡告警等方式减少告警数量;根告警定位采用人工或智能确定的告警根衍关系表,确定告警衍生树,从而一个或多个根告警。这些技术在业界已经比较通用,不做赘述。本技术主要针对尚未成熟的故障分析识别、故障处理方案、故障处理执行、到故障消除等节点。
(3.1)故障分析识别根据根告警定位确定的一个或多个根告警,结合故障分析处理通用节点组件库中的分析排查节点和流程,确定所属故障类型。
具体地,根据根告警定位确定的一个或多个根告警,生成表2中的“故障排查表告警代码索引”,从流程通用节点组件库的故障排查流程表中找到对应的故障排查流程,按照故障排查流程中记录的流程通用节点执行顺序,确定每个节点的实例化参数,进行调用执行,并最终排查出故障根因,从而确定所属故障类型。
具体实例化参数方法,如“检查告警”,在流程节点为“检查本端检查本端R_LOS告警是否消失如果有转2,未有转3”,则对应参数1,网络对象ID就是本端网元端口的标识;参数2,告警代码就实例化为R_LOS的告警代码。然后调用“检查告警”流程节点的对应执行函数,根据返回值确定流程执行的下一个节点:
If(checkAlarm(本端网元端口的标识,R_LOS的告警代码))
{
转2;
}
Else
{
转3;
}
(3.2)故障处理方案根据故障场景类型作为索引,从流程通用节点组件库的故障恢复流程表找到对应的故障恢复流程,按照故障恢复流程中记录的流程通用节点执行顺序,确定每个节点的实例化参数,生成故障处理方案。
(3.3)故障处理执行是按照上述(3.2)中生成的故障处理方案,在仿真网络环境进行执行,显示和评估每个节点执行结果,从而评估整个故障处理方案是否有效。如果有效则转(3.4),无效则(3.5)。通过流水线节点运行状态监控器和调度器进行故障处理流程人工编排调整。
(3.4)故障消除是将(3.3)中在仿真网络环境中的故障处理方案在真实网络环境执行,消除故障。
(3.5)通过流水线节点运行状态监控器和调度器进行故障处理流程编排调整形成调整后的故障处理方案,再转(3.3)执行。
进一步地,本发明还提供了一种传输网故障智能流水线闭环处理装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成所述的传输网故障智能流水线闭环处理方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种传输网故障智能流水线闭环处理方法,其特征在于,所述方法包括如下步骤:
对故障类型进行划分,将各种故障场景进行二级分类;采用知识分析方法,通过故障处理案例和故障处理用户帮助文本生成典型故障分析处理流程通用节点和流程;根据网管系统管理的传输网络拓扑、配置、运行状态,生成仿真网络环境;
构建传输网故障智能流水线,包含告警产生节点、告警上报节点、告警量压减节点、根告警定位节点、故障分析识别节点、故障处理方案节点、故障处理执行节点、故障消除节点;构建故障智能流水线节点运行状态监控器和调度器,负责流水线执行的状态监控和异常处理调度;
构建流水线节点运行状态监控器和调度器,所述状态监控器负责进行节点运行状态监控,所述调度器负责异常处理,以及提供故障处理流程人工编排调整功能。
2.如权利要求1所述的传输网故障智能流水线闭环处理方法,其特征在于,所述对故障类型进行划分,将各种故障场景进行二级分类,具体包括:
故障场景采用二级分类方法,第一级根据发生故障对象在网络中的角色来划分,分为业务类、设备类、线路类、环境类、网管类;
第二级场景是在第一级场景下根据故障具体影响和故障根因来划分;
业务类二级场景分为光层业务中断、电层业务中断、隧道层业务中断、伪线层业务中断和客户层业务中断、光层业务性能劣化、电层业务性能劣化、隧道层业务性能劣化、伪线层业务性能劣化和客户层业务性能劣化、保护组故障;
设备类二级场景分为单盘失效、主备盘倒换失败、电源盘故障、业务盘信号丢失、防雷模块失效、设备掉电、模块老化;
线路类二级场景分为线路中断、线路光功率异常、线路衰耗过大、线路中继类、尾纤类;
环境类二级场景分为温度异常、电压异常、湿度异常;
网管类二级场景网元脱管、单盘脱管、DCN网络异常、网管服务异常;
故障类型由故障场景的一、二级组合值确定。
3.如权利要求1或2所述的传输网故障智能流水线闭环处理方法,其特征在于,所述采用知识分析方法,通过故障处理案例和故障处理用户帮助文本生成典型故障分析处理流程通用节点和流程,具体包括:
对故障处理案例和用户帮助文本的标题采用故障类型方式,每条描述信息中格式要求如下:“编号+动作+具体对象+结果判断分支+分支下一步编号”,其中对于纯操作类语句,只有“编号+动作+具体对象”;
每类动作和对象+结果判断可以生成故障分析处理流程通用节点,流程通用节点分为故障排查和故障恢复两个大类;每个大类又分为网络通用类、OTN网络类、分组网络类;将这些分析的流程通用节点去重后放入流程通用节点组件库;
每个流程通用节点标识为自动化节操作和人工操作;自动化操作节点可以通过程序自动化在线执行,这类节点需要对应开发软件代码来实现该功能,并且对外提供带参数的调用接口来调用执行该操作;人工操作节点当前需要人工离线操作后将结果录入到系统中;
通过故障处理案例和故障处理用户帮助文本的分析,同时还生成了以根告警和衍生告警码为索引的故障排查流程表和以故障场景为索引的故障恢复流程表,都存入流程通用节点组件库。
4.如权利要求1或2所述的传输网故障智能流水线闭环处理方法,其特征在于,所述根据网管系统管理的传输网络拓扑、配置、运行状态,生成仿真网络环境,具体包括:
根据故障管理的传输网络拓扑范围,启动网络仿真服务,并且同步当前网络节点的配置、运行状态,生成可通过管控系统操作的仿真网络环境;故障排查中故障恢复类节点操作,在排查中都在仿真网络环境进行。
5.如权利要求1或2所述的传输网故障智能流水线闭环处理方法,其特征在于,
所述告警产生节点:负责采集网元设备节点上的告警信息,并对采集的信息进行去重处理,并将采集到的信息传送给告警上报节点;该节点部署在网元设备上;
所述告警上报节点:将获取的告警信息通过与管控系统约定的上报协议,将告警信息上报给管控系统,并将告警信息存入原始告警信息数据库,同时将告警信息传递给告警量压减节点;该节点由两部分组成,分为服务端和客户端,服务端部署在网元设备上,负责告警信息的协议组装和发送,客户端部署在管控系统上,负责告警信息的接收和协议解封;
所述告警量压减节点:负责将接收的告警信息根据压减策略,将告警信息去重、去除震荡告警,并将处理后的告警信息传递给根告警定位节点;
所述根告警定位节点:负责根据网络拓扑信息、业务路径信息、告警静态根衍关系、告警发生时间和获取到的告警信息,将一组告警分析出根衍关系,确定根告警和衍生告警,并将这一组根衍关系传递给故障分析识别节点;
所述故障分析识别节点:根据一组根告警和衍生告警,在流程通用节点组件库中查找对应故障排查流程,并根据流程调取相应的流程通用节点组件来实例化执行;从而排查出故障根因,确定故障场景;并将故障场景传递给故障处理方案节点;
所述故障处理方案节点:根据故障场景在流程通用节点组件库中查找对应的故障恢复流程,并根据流程调取相应的故障恢复流程通用节点组件来实例化,生成故障处理方案,提供给故障处理执行节点;
所述故障处理执行节点:该节点按照故障处理方案在仿真网络环境执行,并评估执行结果;在仿真网络环境执行后故障消除后,才能在真实物理网络环境执行,执行完毕后通知故障消除节点;
所述故障消除节点:收到故障执行节点发送的某故障处理执行完毕的通知后,确认该故障消除,并将故障数据存入历史故障库。
6.如权利要求5所述的传输网故障智能流水线闭环处理方法,其特征在于,所述故障分析识别、故障处理方案、故障处理执行、故障消除的具体执行方法为:
(3.1)所述故障分析识别根据根告警定位确定的一个或多个根告警,结合故障分析处理通用节点组件库中的分析排查节点和流程,确定所属故障类型;
(3.2)所述故障处理方案根据故障场景类型作为索引,从流程通用节点组件库的故障恢复流程表找到对应的故障恢复流程,按照故障恢复流程中记录的流程通用节点执行顺序,确定每个节点的实例化参数,生成故障处理方案;
(3.3)所述故障处理执行是按照上述(3.2)中生成的故障处理方案,在仿真网络环境进行执行,显示和评估每个节点执行结果,从而评估整个故障处理方案是否有效;如果有效则转(3.4),无效则(3.5);通过流水线节点运行状态监控器和调度器进行故障处理流程人工编排调整;
(3.4)所述故障消除是将(3.3)中在仿真网络环境中的故障处理方案在真实网络环境执行,消除故障;
(3.5)通过流水线节点运行状态监控器和调度器进行故障处理流程编排调整形成调整后的故障处理方案,再转(3.3)执行。
7.如权利要求6所述的传输网故障智能流水线闭环处理方法,其特征在于,所述故障分析识别具体包括:
根据根告警定位确定的一个或多个根告警,生成“故障排查表告警代码索引”,从流程通用节点组件库的故障排查流程表中找到对应的故障排查流程,按照故障排查流程中记录的流程通用节点执行顺序,确定每个节点的实例化参数,进行调用执行,并最终排查出故障根因,从而确定所属故障类型。
8.如权利要求1或2所述的传输网故障智能流水线闭环处理方法,其特征在于,所述构建故障智能流水线节点运行状态监控器和调度器,具体包括:
状态监控器负责监控所述所有节点运行的状态监控,记录和显示流程执行的当前节点和状态;当管控系统运行异常或某个用户关闭系统重新登录后,调度器负责在当前节点下继续运行该流程。
9.如权利要求8所述的传输网故障智能流水线闭环处理方法,其特征在于,所述状态监控器还负责监控各流程和节点执行的异常,对服务异常的节点进行快速重启,所述调度器还提供人工编排服务,来优化节点的执行流程。
10.一种传输网故障智能流水线闭环处理装置,其特征在于:
包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-9中任一项所述的传输网故障智能流水线闭环处理方法。
CN202310215216.9A 2023-03-07 2023-03-07 传输网故障智能流水线闭环处理方法和装置 Pending CN116208467A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310215216.9A CN116208467A (zh) 2023-03-07 2023-03-07 传输网故障智能流水线闭环处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310215216.9A CN116208467A (zh) 2023-03-07 2023-03-07 传输网故障智能流水线闭环处理方法和装置

Publications (1)

Publication Number Publication Date
CN116208467A true CN116208467A (zh) 2023-06-02

Family

ID=86514565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310215216.9A Pending CN116208467A (zh) 2023-03-07 2023-03-07 传输网故障智能流水线闭环处理方法和装置

Country Status (1)

Country Link
CN (1) CN116208467A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117499443A (zh) * 2023-12-28 2024-02-02 湖南信健科技有限公司 一种分布式控制系统dcs通信松耦合管理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117499443A (zh) * 2023-12-28 2024-02-02 湖南信健科技有限公司 一种分布式控制系统dcs通信松耦合管理系统
CN117499443B (zh) * 2023-12-28 2024-03-29 湖南信健科技有限公司 一种分布式控制系统dcs通信松耦合管理系统

Similar Documents

Publication Publication Date Title
CN109787817B (zh) 网络故障诊断方法、装置和计算机可读存储介质
US6353902B1 (en) Network fault prediction and proactive maintenance system
CN110717665A (zh) 基于调度控制系统故障辨识及趋性分析系统和方法
CN102355368B (zh) 一种网络设备的故障处理方法及系统
CN111176879A (zh) 设备的故障修复方法及装置
US20200021511A1 (en) Performance analysis for transport networks using frequent log sequence discovery
WO2007143943A1 (fr) Procédé, système et dispositif réseau de maintenance centralisée de dispositifs multiples
CN105159964A (zh) 一种日志监控方法及系统
CN105095048A (zh) 一种基于业务规则的监控系统告警关联处理方法
CN113542039A (zh) 一种通过ai算法定位5g网络虚拟化跨层问题的方法
CN101388794B (zh) 一种定位网络管理系统异常事件的方法和系统
CN116208467A (zh) 传输网故障智能流水线闭环处理方法和装置
CN112492567B (zh) 一种应急指挥通信中的故障分析和解决方法及装置
CN111010298B (zh) Pon网络故障监控方法及装置
CN111431754A (zh) 配用电通信网故障分析方法和系统
CN112834865B (zh) 一种电力系统二次回路故障快速查找器
CN111756560A (zh) 一种数据处理方法、装置及存储介质
CN108879956A (zh) 基于设备运行状态对系统故障进行主动判断并修复的方法
CN108696371B (zh) 网络故障确定方法及系统
CN113740666B (zh) 一种数据中心电力系统告警风暴根源故障的定位方法
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN111327474B (zh) 基于拓扑分析的电力系统故障诊断方法
CN109309577A (zh) 用于sdn网络的告警处理方法、装置及系统
CN114448774B (zh) 告警处理方法、装置和存储介质
CN113328898B (zh) 一种具有自主学习能力的故障诊断方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination