CN113037365B - 一种识别光通道生命周期运维状态的方法与装置 - Google Patents

一种识别光通道生命周期运维状态的方法与装置 Download PDF

Info

Publication number
CN113037365B
CN113037365B CN202110227947.6A CN202110227947A CN113037365B CN 113037365 B CN113037365 B CN 113037365B CN 202110227947 A CN202110227947 A CN 202110227947A CN 113037365 B CN113037365 B CN 113037365B
Authority
CN
China
Prior art keywords
data
optical channel
life cycle
maintenance state
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110227947.6A
Other languages
English (en)
Other versions
CN113037365A (zh
Inventor
彭智聪
余萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Optical Network Information Technology Co ltd
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Wuhan Optical Network Information Technology Co ltd
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Optical Network Information Technology Co ltd, Fiberhome Telecommunication Technologies Co Ltd filed Critical Wuhan Optical Network Information Technology Co ltd
Priority to CN202110227947.6A priority Critical patent/CN113037365B/zh
Publication of CN113037365A publication Critical patent/CN113037365A/zh
Application granted granted Critical
Publication of CN113037365B publication Critical patent/CN113037365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/07Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Electromagnetism (AREA)
  • Optical Communication System (AREA)

Abstract

本发明公开了一种识别光通道生命周期运维状态的方法与装置,通过网管系统采集当前网络的历史数据,根据历史数据定义光通道生命周期运维状态,历史数据包括拓扑结构数据、历史告警数据和历史性能数据;通过主动学习对采集的历史数据进行样本标注,得到包含多个已标注数据的已标注样本集;对已标注样本集中的数据进行特征工程加工,并调用机器学习算法对加工后的数据进行训练,得到光通道生命周期运维状态识别模型;针对待测光通道调用光通道生命周期运维状态识别模型,得到待测光通道的光通道生命周期运维状态,并根据对应的特征定位隐患位置和原因。通过上述方案可快速准确地识别光通道生命周期运维状态,并提前预知故障和定位故障原因。

Description

一种识别光通道生命周期运维状态的方法与装置
技术领域
本发明属于OTN网络智能运维技术领域,更具体地,涉及一种识别光通道生命周期运维状态的方法与装置。
背景技术
光网络是信息社会的基石,互联网、4G/5G,以及电力、金融等行业网络均基于光网络来进行承载,光网络一旦发生故障,最终用户将直接面临业务中断、修复周期长等严重问题。如何在光网络故障发生前及时发现网络隐患,预防故障,一直是电信运维领域的重要挑战。
传统运维方案通常是在网管系统中根据经验设置固定的性能阈值和告警方式,当发生故障时,由人工从大量繁杂的告警信息中定位问题。但这种运维方法往往存在以下缺陷:效率低,极度依赖运维人员的运维经验,准确率低,随着网络规模的扩大,人工判断也越来越不现实;很难在网络发生故障前及时发现问题,提前定位排除隐患,做到主动提前运维,而当发生故障时再进行排查定位已经晚了;故障发生后,由于业务故障数据分散,缺少有效关联分析,运营商也无法实时识别故障类型、快速解决问题。
目前,随着人工智能技术的发展,各行各业都开始利用机器学习解决自身领域的问题,提升效率、降低成本。而在OTN(Optical Transport Network,即光传送网)网络领域中,由上可知,随着网络规模的日益扩大和5G网络的飞速发展,传统的人工运维方式已不能满足快速定位问题解决故障隐患的需要了,引入人工智能技术的辅助来提升运维效率已经是行业内的共识。但由于机器学习模型需要大量的真实样本进行训练,在当前电信领域数据不公开的背景下,样本数据少、质量不高,再加上光网络领域涉及大量的通信行业专业知识,找出特定的特征规律并不容易,因此将机器学习方法应用在OTN光网络领域中帮助提升运维效率在行业内还处于探索阶段。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种识别光通道生命周期运维状态的方法与装置,其目的在于基于小样本机器学习的方法训练识别模型,来识别光通道生命周期运维状态,由此解决传统依赖人工判断的运维方案效率低、准确率低,且难以提前定位排除隐患的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种识别光通道生命周期运维状态的方法,包括:
通过网管系统采集当前网络的历史数据,根据所述历史数据定义光通道生命周期运维状态;其中,所述历史数据包括拓扑结构数据、历史告警数据和历史性能数据;
通过主动学习对采集的历史数据进行样本标注,得到包含多个已标注数据的已标注样本集;
对所述已标注样本集中的数据进行特征工程加工,并调用机器学习算法对加工后的数据进行训练,得到光通道生命周期运维状态识别模型;
针对待测光通道调用所述光通道生命周期运维状态识别模型,得到所述待测光通道的光通道生命周期运维状态,并根据对应的特征定位隐患位置和原因。
优选地,所述通过网管系统采集当前网络的历史数据,根据所述历史数据定义光通道生命周期运维状态,具体为:
通过网管系统对应的接口分别从数据库中获取当前网络的拓扑结构数据、历史告警数据和历史性能数据,并根据拓扑结构将历史告警数据和历史性能数据按照光通道维度进行关联;
通过对关联光通道后的历史告警数据和历史性能数据进行统计分析,结合运维经验和业务知识定义出光通道生命周期运维状态;其中,所述光通道生命周期运维状态包括业务中断、故障、亚健康和健康。
优选地,所述业务中断的标准为:发生无保护路径可切换的相关告警;
所述故障的标准为:发生日常关注的相关重要告警;
所述亚健康的标准为:监测的性能数据发生劣化,或发生非重要告警;
所述健康的标准为:监测的各项性能数据均正常,且无告警发生。
优选地,每个光通道包含多个单盘,则所述根据各状态的特征,通过主动学习对采集的历史数据进行样本标注,得到包含多个已标注数据的已标注样本集,具体为:
根据拓扑结构数据,将历史告警数据和历史性能数据按照单盘维度进行关联,形成待标注样本集;
从所述待标注样本集中挑选部分数据进行样本标注,并通过主动学习扩展得到包含多个已标注数据的已标注样本集。
优选地,所述通过主动学习扩展得到包含多个已标注数据的已标注样本集,具体为:
利用查询函数不断从待标注样本集中选择数据进行人工标注,将人工标注后的数据加入已标注样本集,并利用新标注的数据来训练主动学习模型和进行下一轮查询,直至所述已标注样本集中的数据量累积达到预设值。
优选地,所述对所述已标注样本集中的数据进行特征工程加工,并调用机器学习算法对加工后的数据进行训练,得到光通道生命周期运维状态识别模型,具体为:
根据每个光通道中单盘的类型和数量,对所述已标注样本集中的数据进行特征工程加工,得到包含多个特征值的特征输入训练集;
对所述特征输入训练集中的数据进行异常数据清洗;
调用机器学习算法对所述特征输入训练集中清洗后的数据进行训练,得到光通道生命周期运维状态识别模型。
优选地,所述机器学习算法为决策树、随机森林或adaboost。
优选地,所述针对待测光通道调用所述光通道生命周期运维状态识别模型,得到所述待测光通道的光通道生命周期运维状态,并根据对应的特征定位隐患位置和原因,具体为:
通过网管系统采集所述待测光通道的拓扑结构数据、实时告警数据和实时性能数据,并对采集的数据进行特征工程加工,得到多个特征值;
将加工后得到的多个特征值输入所述光通道生命周期运维状态识别模型,得到所述待测光通道的光通道生命周期运维状态;
当识别出光通道生命周期运维状态为亚健康时,根据输入的多个特征值确认出现异常的特征值,进而根据该特征值定位出现异常的单盘。
优选地,在通过主动学习对采集的历史数据进行样本标注时会积累得到一个主动学习模型,则当将所述光通道生命周期运维状态识别模型部署到不同现网时,所述方法还包括:
当网络情况发生变化或需要将所述光通道生命周期运维状态识别模型部署到不同现网时,通过所述主动学习模型生成新的样本,并调用算法文件对新的样本进行在线训练,得到新光通道生命周期运维状态识别模型,以便进行模型替换。
按照本发明的另一方面,提供了一种识别光通道生命周期运维状态的装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成第一方面所述的识别光通道生命周期运维状态的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:本发明提供的方法拆解了复杂的运维场景,通过对纷杂的数据进行信息提炼,清晰定义了光通道生命周期运维状态;同时基于主动学习的思路进行样本扩展以获取高质量的大量样本,并在此基础上通过机器学习进行模型训练,得到光通道生命周期运维状态识别模型;对于任一光通道,通过调用该识别模型即可快速而准确地识别出光通道生命周期运维状态,并可提前预知故障和定位故障原因,使异常状态得到及时处理,实现主动运维。
附图说明
图1是本发明实施例提供的一种识别光通道生命周期运维状态的方法流程图;
图2是本发明实施例提供的一种定义光通道生命周期运维状态的方法流程图;
图3是本发明实施例提供的一种光通道的拓扑结构示意图;
图4是本发明实施例提供的一种告警分组示意图;
图5是本发明实施例提供的一种通过主动学习进行样本标注的流程图;
图6是本发明实施例提供的一种主动学习的原理框架图;
图7是本发明实施例提供的一种训练光通道生命周期运维状态识别模型的流程图;
图8是本发明实施例提供的一种模型训练时的特征相关性示意图;
图9是本发明实施例提供的一种调用模型识别运维状态的流程图;
图10是本发明实施例提供的一种识别光通道生命周期运维状态的装置架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为便于理解,对实施例以及附图中涉及的英文简写作以下解释说明:
och,optical channel,光通道;
OPUK,optical payload unit(k=1,2,...),光通道净荷单元
ODUK,optical data unit(k=1,2,...),光通道数据单元
OTUK,optical transportunit(k=1,2,...),光通道传送单元
FEC,forward error correction,前向纠错
PM,path monitoring,通道层监控
SM,section monitoring,断层监控
OPU_MSIM,OPU复用结构指示丢失
OPU_PLM,OPU载荷不匹配
ODU_AIS,ODU告警指示
ODU_LOF,ODU帧丢失
PM_BDI,PM后向缺陷指示
PM_BEI_SD,PM后向信号劣化
PM_AIS,PM告警指示
PM_SSF,PM服务层信号失效
PM_BEI_SES_LIMIT,PM后向严重误码秒越限
PM_BIP8_SES_LIMIT,PM严重误码秒越限
PM_BIP8_SD,PM信号劣化
FEC_D_SD,FEC解码信号劣化
FEC_C_SD,FEC线路信号劣化
OTN_LOM,OTN复帧丢失
OTN_LOF,OTN帧丢失
OTU_LOM,OTU复帧丢失
OTU_LOF,OTU帧丢失
OTU_SSF,OTU服务层信号失效
OTU4_SSF,OTU4服务层信号失效
SM_TIM,SM踪迹标识失配
SM_BIP8_SD,SM信号劣化
SM_BEI_SD,SM后向信号劣化
SM_BEI,SM后向信号
SM_BDI,SM后向缺陷指示
W_TO_P,主用倒备用
P_TO_W,备用倒主用
IOPM_LOW,输入光功率不足
IOPM_HIGH,输入光功率过载
IOP_LOW,输入光功率过低
IOP_HIGH,输入光功率过高
OOP_HIGH,输出光功率过高
OOP_LOW,输出光功率不足
OOPM_LOW,输出光功率不足
OOPM_HIGH,输出光功率过载
ILS,输入光丢失
OLS,输出光丢失
GAIN_LOW,增益不足
LASER_CCT,激光器偏流过限
LASER_TCT,激光器温度过限
CLKIN_LOS,输入时钟丢失
OTRX_ABSENT,光模块不在位
RLOS,输入光信号丢失
LOS_P,净荷信号丢失
OSW_FAIL,光开关切换失效
实施例1
为解决传统依赖人工判断的运维方案效率低、准确率低,且难以提前定位排除隐患的技术问题,本发明实施例提供了一种识别光通道生命周期运维状态的方法,如图1所示,主要包括以下步骤:
S1,通过网管系统采集当前网络的历史数据,根据所述历史数据定义光通道生命周期运维状态;其中,所述历史数据包括拓扑结构数据、历史告警数据和历史性能数据。
要做到拆解复杂的运维场景,首先需要做到从纷杂的数据信息中提炼出光通道的生命周期运维状态,清晰定义通道情况,划分各状态的重要程度,并进行相应的处理。目前光通道生命周期运维状态的定义还没有确切的标准,本发明实施例通过业务知识、运维手册和模型挖掘定义了光通道生命周期运维状态。结合图2,具体过程如下:
S11,通过网管系统对应的接口分别从数据库中获取当前网络的拓部结构数据、历史告警数据和历史性能数据,并根据拓扑结构将历史告警数据和历史性能数据按照光通道维度进行关联。其中,所述告警数据包括但不限于帧失步相关告警、光信号丢失相关告警、误码越限告警等等,所述性能数据包括但不限于线路误码率、光功率、电压、温度、色散等等,按照光通道维度进行数据关联也就是将光通道所对应的网元、单盘、端口关联上相应的历史告警数据和历史性能数据,如此可方便后续进行数据分析以及状态定义。
例如,通过某地市网管系统对应的接口采集了10月到11月两个月的全网数据,包括该地市500多条光通道及对应的拓扑结构数据、历史告警数据和历史性能数据。其中,每条och通道的拓扑结构存在差异,但总体来说每条och通道的拓扑结构如图3所示,包括多个网元和多个单盘(例如源盘线路盘、宿盘线路盘、合波盘、分波盘、放大盘),且单盘设置在网元上。在网管系统中,告警数据和性能数据是分开存储的,这就需要根据图3所示的拓扑结构去获取每个单盘上的历史告警数据和历史性能数据,具体是根据光通道、网元、单盘、端口去获取出对应位置上的历史告警数据和历史性能数据,然后在光通道维度上进行数据关联,相当于每个光通道对应一套历史数据。
S12,通过对关联光通道后的历史告警数据和历史性能数据进行统计分析,结合运维经验和业务知识定义出光通道生命周期运维状态。其中,所述光通道生命周期运维状态包括业务中断、故障、亚健康和健康,各状态的标准如下:
a)业务中断:发生无保护路径可切换的帧失步等相关告警;
b)故障:发生日常关注的相关重要告警,例如有保护路径可切换的帧失步相关告警、光信号丢失相关告警、误码越限告警等等;
c)亚健康:监测的一项或多项性能数据发生劣化,例如线路误码率、光功率、电压、温度等等,或者发生一些非重要告警异常等;
d)健康:监测的各项性能数据均正常,且无告警发生。
需要说明的是,这里通过采集可获取大量的历史数据,在对历史告警数据进行分析时,可根据运维经验依照告警级别分析,即先分析级别较高的告警(如紧急告警、主要告警等),后分析级别较低的告警(如次要告警、提示告警等)。同时,分析告警数据时需要注意告警的相关性,在具体的实施例中,可将告警种类按照层次分为多个告警组,不同告警组和不同性能指标相关。例如,可如图4所示划分为11个告警组,其中:
告警组1(OPUK层告警)最底层,更容易引发高层告警,级别最高;
告警组2(ODUK层告警)和告警组3(PM类告警)相关联;
告警组4(FEC类告警)、告警组5(OTUK层告警)、告警组6(SM类告警)相关联;
告警组7(倒换类告警)可能是由于性能指标异常导致的,分析时应与告警组8(功率类告警)、告警组9(激光器类告警)以及告警组1~6等底层告警相结合分析;
告警组10(时钟类告警)和告警组11(其它类告警)为上层告警,常常会有相应的其它底层告警伴随发生;或者直接指示告警,例如OSW_FAIL能直接指示单盘故障的告警。
不同告警组和不同性能指标相关联,例如告警组4(FEC类告警)和误码率异常相关,告警组8(功率类告警)和输入输出光功率异常相关,因此根据故障告警分类即可找到相关的性能指标。结合上述告警分类,通过告警的重要程度,可定义相应的状态;例如,OPU_MSIM告警为一级告警,对应状态为业务中断;RLOS告警为一级告警,对应状态为故障;SM_TIM告警为三级告警,对应状态为亚健康。其中,业务中断和故障状态相对来说比较容易定义;但亚健康的状态较难定义且人工标注成本极高,因此后续引入主动学习来解决这个问题,此处只是粗定义。
S2,通过主动学习对采集的历史数据进行样本标注,得到包含多个已标注数据的已标注样本集。
该步骤主要是进行运维状态的标注以获取样本数据,包括业务中断、故障、亚健康和健康四种状态。由于机器学习模型需要大量的真实样本进行训练,而直接全量标注的话成本大、效率低,因此在当前样本数据少质量不高的情况下,本发明实施例基于主动学习的思路扩展样本以实现样本的累积,快速高效地获取高质量的大量样本;即先人工或利用业务规则进行少量标注,再用简单的算法对这些少量的样本进行拟合标注,然后挑选置信度较低的结果进行重新人工标注,循环多次后得到高质量的大量样本。结合图5,具体过程如下:
S21,根据拓扑结构数据,将历史告警数据和历史性能数据按照单盘维度进行关联,形成待标注样本集。需要说明的是,S1中是在光通道维度将数据关联起来进行总体分析,而此处为方便标注,是按照单盘维度关联上误码率、光功率、温度、色散值等数据,进行一定的加工处理后形成待标注样本集,以便在标注平台进行标注。
S22,从所述待标注样本集中挑选部分数据进行样本标注,并通过主动学习扩展得到包含多个已标注数据的已标注样本集。具体地,对于每个性能指标,都对应得到一条随告警时间点变化的曲线,该曲线可显示在标注平台上;在标注时,通常先选取曲线上具有代表性的最高点或最低点处(即性能发生劣化)对应的少量数据进行人工标注,具体是人工结合运维经验和业务知识为数据标注上对应的光通道生命周期运维状态,形成包含少量已标注样本数据的样本集;然后引入主动学习的方式将该样本集进行扩展,得到大量已标注样本数据,进而形成已标注样本集。例如,误码率劣化时认为是亚健康,则人工为对应时间点的数据标注亚健康状态。
其中,主动学习也叫查询学习或最优实验设计,是一个迭代式的交互训练过程,如图6所示,主要有5个核心部分组成,即未标记样本集U、筛选策略查询函数Q、督导者或专家(即标注人员)S、标记样本集L、机器学习模型(即主动学习模型)C。其中,C是一个分类器,这里简单采用逻辑回归模型;L中是用于训练的已标注样本;Q是查询函数,用于从未标记样本集U中查询信息量大的信息,这里主要是指性能发生劣化时的数据;S是标注人员,可以为U中样本标注正确的标签。
主动学习的过程大致如下:通过L中初始标记的少量样本开始学习,利用一定策略的查询函数Q不断从未标注样本集U中选择最有用的数据(此处即性能发生劣化时的数据),并向标注人员S询问标签,以进行人工标注;然后将人工标注后的数据加入已标注样本集L,并利用新标注的数据来继续训练主动学习模型和进行下一轮查询,直至所述已标注样本集L中的数据量累积达到预设值,此时可以得到一个比较优化的主动学习模型;后续标注时可直接利用该主动学习模型进行样本标注,再将其中置信度较低的结果重新进行人工标注,如此不断循环,最终可得到足够模型训练的已标注样本集。主动学习是一个循环的过程,以不断迭代的训练方式更新主动学习模型的性能,在每次迭代的过程中,已标注样本的数量不断增加累积,从而达到扩展样本集的目的。
通常,使用主动学习得到的主动学习模型会直接用于得到最终业务结果,而这里并没有直接用,这是因为查询条件中包含历史告警数据的判别约束,而在S4调用识别模型得到结果时往往是在相应的告警发生之前,有前后的时序关系,后续训练识别模型的目标也是为了提前识别隐患而不依赖后续的告警信息。
S3,对所述已标注样本集中的数据进行特征工程加工,并调用机器学习算法对加工后的数据进行训练,得到光通道生命周期运维状态识别模型。
在得到已标注样本集后,需要对该样本集中的数据进行特征工程加工,且特征需要具有一定的业务含义,然后挑选合适的分类器对数据进行训练,得到业务可解释性强的光通道生命周期运维状态识别模型。结合图7,具体过程如下:
S31,根据每个光通道中单盘的类型和数量,对所述已标注样本集中的数据进行特征工程加工,得到包含多个特征值的特征输入训练集。其中,特征工程加工过程具体如下:结合图3,一条光通道有唯一的源盘线路盘和宿盘线路盘,但合分波盘、放大盘和保护盘的数量均有多个且数量不确定。考虑到合分波盘、放大盘、保护盘重要的性能指标比较统一,这里将同类型盘的多个性能值偏差相加或者取平均作为特征进行统一设计,特征输入样本结构如表1所示。
表1:
Figure BDA0002957505820000121
Figure BDA0002957505820000131
S32,对所述特征输入训练集中的数据进行异常数据清洗。其中,对于数量级差别较大的值可做log化处理,log化处理后还可对所有值均做归一化处理以及离散化处理。
S33,调用机器学习算法对所述特征输入训练集中清洗后的数据进行训练,得到光通道生命周期运维状态识别模型;其中,所述机器学习算法为决策树、随机森林或adaboost等。在具体实施时,可先使用决策树、随机森林、adaboost等多个机器学习算法进行实验,最终挑选效果最好的算法来获得可解释性较强的模型。其中,决策树和随机森林算法本身就具备较强的可解释性,通过样本集进行模型训练时,可以查看其特征相关性如图8所示。由图8可知,源平均误码率、宿平均误码率、源输入光功率偏度、宿光功率偏度、分波盘输入光功率偏度、合波盘输入光功率偏度对状态影响最大;放大盘输入光功率偏度、放大盘输出光功率偏度、保护盘输入光功率偏度、光衰偏度对状态影响次之,这与运维经验的认知也比较相符,因此可认为训练得到的模型具备较强的可解释性。
步骤40,针对待测光通道调用所述光通道生命周期运维状态识别模型,得到所述待测光通道的光通道生命周期运维状态,并根据对应的特征定位隐患位置和原因。
当需要识别任一个待测光通道的生命周期运维状态时,网管推理服务调用所述光通道生命周期运维状态识别模型,不仅可以获取到光通道运维生命周期状态,还能依据具有业务含义的特征定位到隐患位置和原因。结合图9,具体过程如下:
S41,通过网管系统采集所述待测光通道的拓扑结构数据、实时告警数据和实时性能数据,并对采集的数据进行特征工程加工,得到多个特征值。具体地,先按照S1中的方法,通过网管系统对应的接口获取待测光通道的实时数据;然后按照S3中的方法对采集的实时数据进行特征工程加工,加工成图6中对应的特征输入形式,每个单盘对应得到多个特征值。
S42,将加工后得到的多个特征值输入所述光通道生命周期运维状态识别模型,得到所述待测光通道的光通道生命周期运维状态。其中,对于故障和业务中断这两种状态,直接通过观察实时告警数据即可确定,因此在发生故障或业务中断时可快速提示快速响应。
S43,当识别出光通道生命周期运维状态为亚健康时,根据输入的多个特征值确认出现异常的特征值,进而根据该特征值定位出现异常的单盘。其中。亚健康状态就代表未来会发生故障的可能性很大,所以识别出亚健康状态就提前预判会出故障问题,而在识别亚健康过程中又可定位到隐患。由于S3中设计的特征有较强的的业务含义,训练得到的模型也有比较强的可解释性,因此根据模型识别的亚健康结果及这些特征可很容易判断出是哪个盘的哪个特征出了什么异常,达到提前定位到隐患位置和原因的目的。
例如,随机森林可以得到各个特征的重要性,调用模型得到亚健康结果后可根据各个重要的特征逐个看是否有异常;结合表1,假设宿盘误码率超越动态阈值次数的重要性很大,而当前特征输入确实这个特征值很大,那么就可以判断模型识别得到亚健康主要是基于该指标出现了异常,也就实现了隐患原因的定位。进一步结合表1,这个指标可以定位到是在光通道的宿盘上,也就实现了相应隐患位置的定位。另外,误码率的超越动态阈值次数也说明光纤可能出现了一些问题,后面可进一步查看光纤的状态以便迅速提前排除故障隐患。
进一步地,由于只使用了小样本扩展得到的样本集,因此无法穷举所有的现网网络情况。基于以上考虑,当网络情况发生变化或需要将上面训练得到的光通道生命周期运维状态识别模型部署到不同现网时,例如时间维度或者地域维度不同的现网中,本发明采用在线训练的思路实现模型在不同网络状况下的重新训练。大致过程如下:通过前面积累得到的所述主动学习模型生成新的样本,并调用算法文件对新的样本进行在线训练,得到更适用于现网特征规律的新光通道生命周期运维状态识别模型,以便进行模型替换。
具体地,当在S3中训练得到所述光通道生命周期运维状态识别模型后,将该识别模型、对应的算法文件以及前面主动学习积累的主动学习模型均部署到实际现网中,开始时是通过S3中训练得到的该识别模型来进行光通道生命周期运维状态的识别。随着时间的推移,现网中会产生新的故障和新的告警,此时通过前面积累的主动学习模型进行新样本的累积,从而无需重新分析和生成新样本集。随着运维长期化,网络情况可能会发生变更导致原有的识别模型准确率降低,或者将原有识别模型部署到不同现网时不再适用,此时调用算法文件对新积累的样本进行在线训练,得到更适用于现网特征规律的新模型;经过对比后进行现网模型的替换,后面使用新模型进行光通道运维生命周期状态的识别,从而能直接适用于网络情况不同的OTN网络。
本发明实施例提供的上述方法拆解了复杂的运维场景,通过对纷杂的数据进行信息提炼,清晰定义了光通道生命周期运维状态;同时基于主动学习的思路进行样本扩展以获取高质量的大量样本,并在此基础上通过机器学习进行模型训练,得到光通道生命周期运维状态识别模型;对于任一光通道,通过调用该识别模型即可快速而准确地识别出光通道生命周期运维状态,并可提前预知故障和定位故障原因,使异常状态得到及时处理,实现主动运维。另外,采用在线训练的思路实现模型在不同网络状况下的重新训练,从而无需重新分析直接适用于网络情况不同的OTN网络。
实施例2
在上述实施例1提供的识别光通道生命周期运维状态的方法的基础上,本发明还提供了一种可用于实现上述方法的识别光通道生命周期运维状态的装置,如图10所示,是本发明实施例的装置架构示意图。本实施例的识别光通道生命周期运维状态的装置包括一个或多个处理器21以及存储器22。其中,图10中以一个处理器21为例。
所述处理器21和所述存储器22可以通过总线或者其他方式连接,图10中以通过总线连接为例。
所述存储器22作为一种识别光通道生命周期运维状态的方法非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如实施例1中的识别光通道生命周期运维状态的方法。所述处理器21通过运行存储在所述存储器22中的非易失性软件程序、指令以及模块,从而执行识别光通道生命周期运维状态的装置的各种功能应用以及数据处理,即实现实施例1的识别光通道生命周期运维状态的方法。
所述存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,所述存储器22可选包括相对于所述处理器21远程设置的存储器,这些远程存储器可以通过网络连接至所述处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的识别光通道生命周期运维状态的方法,例如,执行以上描述的图1、图2等所示的各个步骤。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种识别光通道生命周期运维状态的方法,其特征在于,包括:
通过网管系统采集当前网络的历史数据,根据所述历史数据定义光通道生命周期运维状态;其中,所述历史数据包括拓扑结构数据、历史告警数据和历史性能数据;
通过主动学习对采集的历史数据进行样本标注,得到包含多个已标注数据的已标注样本集;
对所述已标注样本集中的数据进行特征工程加工,并调用机器学习算法对加工后的数据进行训练,得到光通道生命周期运维状态识别模型;
针对待测光通道调用所述光通道生命周期运维状态识别模型,得到所述待测光通道的光通道生命周期运维状态,并根据对应的特征定位隐患位置和原因;
所述针对待测光通道调用所述光通道生命周期运维状态识别模型,得到所述待测光通道的光通道生命周期运维状态,并根据对应的特征定位隐患位置和原因,具体为:
通过网管系统采集所述待测光通道的拓扑结构数据、实时告警数据和实时性能数据,并对采集的数据进行特征工程加工,得到多个特征值;
将加工后得到的多个特征值输入所述光通道生命周期运维状态识别模型,得到所述待测光通道的光通道生命周期运维状态;
当识别出光通道生命周期运维状态为亚健康时,根据输入的多个特征值确认出现异常的特征值,进而根据该特征值定位出现异常的单盘。
2.如权利要求1所述的识别光通道生命周期运维状态的方法,其特征在于,所述通过网管系统采集当前网络的历史数据,根据所述历史数据定义光通道生命周期运维状态,具体为:
通过网管系统对应的接口分别从数据库中获取当前网络的拓扑结构数据、历史告警数据和历史性能数据,并根据拓扑结构将历史告警数据和历史性能数据按照光通道维度进行关联;
通过对关联光通道后的历史告警数据和历史性能数据进行统计分析,结合运维经验和业务知识定义出光通道生命周期运维状态;其中,所述光通道生命周期运维状态包括业务中断、故障、亚健康和健康。
3.如权利要求2所述的识别光通道生命周期运维状态的方法,其特征在于,所述业务中断的标准为:发生无保护路径可切换的相关告警;
所述故障的标准为:发生日常关注的相关重要告警;
所述亚健康的标准为:监测的性能数据发生劣化,或发生非重要告警;
所述健康的标准为:监测的各项性能数据均正常,且无告警发生。
4.如权利要求1所述的识别光通道生命周期运维状态的方法,其特征在于,每个光通道包含多个单盘,则根据各状态的特征,通过主动学习对采集的历史数据进行样本标注,得到包含多个已标注数据的已标注样本集,具体为:
根据拓扑结构数据,将历史告警数据和历史性能数据按照单盘维度进行关联,形成待标注样本集;
从所述待标注样本集中挑选部分数据进行样本标注,并通过主动学习扩展得到包含多个已标注数据的已标注样本集。
5.如权利要求4所述的识别光通道生命周期运维状态的方法,其特征在于,所述通过主动学习扩展得到包含多个已标注数据的已标注样本集,具体为:
利用查询函数不断从待标注样本集中选择数据进行人工标注,将人工标注后的数据加入已标注样本集,并利用新标注的数据来训练主动学习模型和进行下一轮查询,直至所述已标注样本集中的数据量累积达到预设值。
6.如权利要求1所述的识别光通道生命周期运维状态的方法,其特征在于,所述对所述已标注样本集中的数据进行特征工程加工,并调用机器学习算法对加工后的数据进行训练,得到光通道生命周期运维状态识别模型,具体为:
根据每个光通道中单盘的类型和数量,对所述已标注样本集中的数据进行特征工程加工,得到包含多个特征值的特征输入训练集;
对所述特征输入训练集中的数据进行异常数据清洗;
调用机器学习算法对所述特征输入训练集中清洗后的数据进行训练,得到光通道生命周期运维状态识别模型。
7.如权利要求6所述的识别光通道生命周期运维状态的方法,其特征在于,所述机器学习算法为决策树、随机森林或adaboost。
8.如权利要求1-7任一所述的识别光通道生命周期运维状态的方法,其特征在于,在通过主动学习对采集的历史数据进行样本标注时会积累得到一个主动学习模型,则当将所述光通道生命周期运维状态识别模型部署到不同现网时,所述方法还包括:
当网络情况发生变化或需要将所述光通道生命周期运维状态识别模型部署到不同现网时,通过所述主动学习模型生成新的样本,并调用算法文件对新的样本进行在线训练,得到新光通道生命周期运维状态识别模型,以便进行模型替换。
9.一种识别光通道生命周期运维状态的装置,其特征在于,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-8任一所述的识别光通道生命周期运维状态的方法。
CN202110227947.6A 2021-03-02 2021-03-02 一种识别光通道生命周期运维状态的方法与装置 Active CN113037365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110227947.6A CN113037365B (zh) 2021-03-02 2021-03-02 一种识别光通道生命周期运维状态的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110227947.6A CN113037365B (zh) 2021-03-02 2021-03-02 一种识别光通道生命周期运维状态的方法与装置

Publications (2)

Publication Number Publication Date
CN113037365A CN113037365A (zh) 2021-06-25
CN113037365B true CN113037365B (zh) 2022-06-24

Family

ID=76465284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110227947.6A Active CN113037365B (zh) 2021-03-02 2021-03-02 一种识别光通道生命周期运维状态的方法与装置

Country Status (1)

Country Link
CN (1) CN113037365B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117938250A (zh) * 2022-10-24 2024-04-26 华为技术有限公司 一种光路脏污识别的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105375982A (zh) * 2015-11-24 2016-03-02 国家电网公司 智能配电网系统的以太网无源光网络故障预判方法
CN110838872A (zh) * 2018-08-16 2020-02-25 华为技术有限公司 一种实现光链路故障识别的方法、装置及系统
CN111342997A (zh) * 2020-02-06 2020-06-26 烽火通信科技股份有限公司 一种深度神经网络模型的构建方法、故障诊断方法及系统
CN111400617A (zh) * 2020-06-02 2020-07-10 四川大学 基于主动学习的社交机器人检测数据集扩展方法及系统
CN111865407A (zh) * 2020-06-11 2020-10-30 烽火通信科技股份有限公司 光通道性能劣化智能预警方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT201800003363A1 (it) * 2018-03-08 2019-09-08 Milano Politecnico Metodo per monitorare un sistema di comunicazioni ottiche
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的系统故障诊断智能化运维方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105375982A (zh) * 2015-11-24 2016-03-02 国家电网公司 智能配电网系统的以太网无源光网络故障预判方法
CN110838872A (zh) * 2018-08-16 2020-02-25 华为技术有限公司 一种实现光链路故障识别的方法、装置及系统
CN111342997A (zh) * 2020-02-06 2020-06-26 烽火通信科技股份有限公司 一种深度神经网络模型的构建方法、故障诊断方法及系统
CN111400617A (zh) * 2020-06-02 2020-07-10 四川大学 基于主动学习的社交机器人检测数据集扩展方法及系统
CN111865407A (zh) * 2020-06-11 2020-10-30 烽火通信科技股份有限公司 光通道性能劣化智能预警方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113037365A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
Shahkarami et al. Machine-learning-based soft-failure detection and identification in optical networks
KR102483025B1 (ko) 운영 유지 시스템 및 방법
US20220345218A1 (en) Method and apparatus for obtaining odn logical topology information, device, and storage medium
EP3975048A1 (en) Method for constructing cloud network alarm root cause relational tree model, device, and storage medium
US20200021511A1 (en) Performance analysis for transport networks using frequent log sequence discovery
Barzegar et al. Soft-failure detection, localization, identification, and severity prediction by estimating QoT model input parameters
CN113037365B (zh) 一种识别光通道生命周期运维状态的方法与装置
CN111930592A (zh) 一种实时检测日志序列异常的方法和系统
CN105095048A (zh) 一种基于业务规则的监控系统告警关联处理方法
CN109951306B (zh) 告警的处理方法、装置、设备及介质
CN112217674B (zh) 基于因果网络挖掘和图注意力网络的告警根因识别方法
CN111242171A (zh) 网络故障的模型训练、诊断预测方法、装置以及电子设备
Mayer et al. Demonstration of ML-assisted soft-failure localization based on network digital twins
US11972334B2 (en) Method and apparatus for generating a combined isolation forest model for detecting anomalies in data
CN112752172B (zh) 一种基于迁移学习的光通道故障诊断方法和系统
CN111262624B (zh) 光缆故障的监控方法和装置
CN113676343B (zh) 电力通信网故障源定位方法及装置
CN111385128A (zh) 突发负荷的预测方法及装置、存储介质、电子装置
Kruse et al. EDFA soft-failure detection and lifetime prediction based on spectral data using 1-D convolutional neural network
CN115276234A (zh) 一种电力网络安全监测系统
CN114640573B (zh) 网络设备故障处理系统
CN113328898B (zh) 一种具有自主学习能力的故障诊断方法和系统
Barzegar et al. Soft-failure localization and time-dependent degradation detection for network diagnosis
Wang et al. Machine learning for optical layer failure management
Natalino et al. Root cause analysis for autonomous optical network security management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant