CN112752172B - 一种基于迁移学习的光通道故障诊断方法和系统 - Google Patents

一种基于迁移学习的光通道故障诊断方法和系统 Download PDF

Info

Publication number
CN112752172B
CN112752172B CN202011470079.6A CN202011470079A CN112752172B CN 112752172 B CN112752172 B CN 112752172B CN 202011470079 A CN202011470079 A CN 202011470079A CN 112752172 B CN112752172 B CN 112752172B
Authority
CN
China
Prior art keywords
state
training
optical channel
alarm
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011470079.6A
Other languages
English (en)
Other versions
CN112752172A (zh
Inventor
余萌
彭智聪
高枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Optical Network Information Technology Co ltd
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Wuhan Optical Network Information Technology Co ltd
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Optical Network Information Technology Co ltd, Fiberhome Telecommunication Technologies Co Ltd filed Critical Wuhan Optical Network Information Technology Co ltd
Priority to CN202011470079.6A priority Critical patent/CN112752172B/zh
Publication of CN112752172A publication Critical patent/CN112752172A/zh
Application granted granted Critical
Publication of CN112752172B publication Critical patent/CN112752172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q11/0067Provisions for optical access or distribution networks, e.g. Gigabit Ethernet Passive Optical Network (GE-PON), ATM-based Passive Optical Network (A-PON), PON-Ring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0005Switch and router aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Optical Communication System (AREA)

Abstract

本发明公开了一种基于迁移学习的光通道故障诊断方法:获取某一训练区域的光网络性能、告警、日志和拓扑数据,构建模型训练所需要的数据样本集;从数据样本集中提取训练态样本、训练态特征、训练态关系;选择迁移学习的方式,输入提取的训练态样本、训练态特征、训练态关系进行模型训练,得到光通道状态诊断训练态模型;选取推理区域的光网络性能、告警、日志和拓扑数据,将光通道数据进行健康状态标注,作为推理态样本;将推理态样本载入光通道状态诊断训练态模型中,训练光通道状态诊断推理态模型;调用新生成的光通道状态诊断推理态模型,得到分析对象光通道的健康状态。本发明还提供了相应的基于迁移学习的光通道故障诊断系统。

Description

一种基于迁移学习的光通道故障诊断方法和系统
技术领域
本发明涉及OTN设备管理技术领域,更具体地,涉及一种基于迁移学习的光通道故障诊断方法和系统。
背景技术
随着云计算、5G互联的兴起,网络容量需求日益增加,传统的10G网络逐步被100G替代。随着数据中心的兴起,百G骨干网大规模部署,百G光传送网(Optical TransportNetwork,OTN)端口的交换机和路由器越来越多,由于百G骨干网设备成本高、体积大、功耗高,维护难度大,链路故障可能直接会带来业务中断,影响用户体验,因此对光通道的亚健康预测和故障点溯源尤其重要。
在不同运营商有不同的成本管控政策背景下,OTN相关产品不停地更新迭代,全球运营商OTN网络的拓扑布局差异巨大,涉及的单盘种类繁多,拓扑连接的框架不尽相同。同时,维护人员、温度、电压、电流、设备使用年限等外因也造成了不同区域OTN网络上展现了不同的光通道状态数据分布。传统的机器学习方法,只能适用于单一区域的OTN现网,当更改推理区域时,模型需要积累大量的真实样本数据进行重新训练,在当前电信领域数据不公开的背景下实操难度大。同时,现网中路由拓扑常常会更新,添加、删除、修改单盘都很常见。当光通道中引入一种新型号的单盘,单盘样本数据少,或者光通道路由路径发生改变,短时间样本数据少,很难基于小样本建立准确的模型预估光通道状态。即使最后模型能拟合小样本的测试数据,但面对未来的数据,很难准确拟合。
迁移学习是一种多个分布差异但相关的领域或任务之间的知识传递。现有技术存在问题:单一的机器学习模型难以适用现实频繁变化的OTN网络,需要引入迁移学习,增强传统机器学习模型的通用性和普适性。
发明内容
本发明的目的是提供一种基于迁移学习的光通道故障诊断方法和系统,可适用于现实不同区域、不断变化的OTN网络。
为实现上述目的,按照本发明的一个方面,提供了一种基于迁移学习的光通道故障诊断方法,包括以下步骤:
S1、获取某一训练区域的光网络性能、告警、日志和拓扑数据,完成告警数据的时间切片和分组,将光网络性能、告警、日志和拓扑数据关联,依据光通道故障诊断关联库完成健康状态标注,构建模型训练所需要的数据样本集;
S2、基于推理区域的需求和数据情况,从数据样本集中提取训练态样本、训练态特征、训练态关系;选择迁移学习的方式,输入提取的训练态样本、训练态特征、训练态关系进行模型训练,得到光通道状态诊断训练态模型;
S3、依据训练态样本、训练态特征、训练态关系、光通道状态诊断训练态模型,选取推理区域的光网络性能、告警、日志和拓扑数据,将光通道数据进行健康状态标注,作为推理态样本;
S4、将推理态样本载入光通道状态诊断训练态模型中,训练光通道状态诊断推理态模型,使光通道状态诊断推理态模型对训练态样本和推理态样本进行状态预测,如使已知状态的数据的预测结果和真实结果之间的差异量小于预设阈值,即认为新生成的光通道状态诊断推理态模型满足了推理区域的故障诊断要求;
S5、调用所述新生成的光通道状态诊断推理态模型,得到分析对象光通道的健康状态,作为早期干预排查隐患的依据。
本发明的一个实施例中,所述光通道故障的分析对象,包括OCH光通道路径、OMS复用段路径和OTS光纤链路。
本发明的一个实施例中,所述光通道故障的类型包括:线路盘故障、放大盘板卡故障、电源故障、光模块故障、光功率不足或光功率过高故障。
本发明的一个实施例中,所述步骤S1包括:
S11,获取某一训练区域的OCH、OMS、OTS分层路由ID和端口信息,整理成端口信息表;
S12,根据端口信息表获取端口上报的光层性能数据;
S13,根据端口信息表获取端口和盘上报告警信息,按预设规则过滤,去掉伴随告警,完成告警数据的时间切片和分组;
S14,根据端口信息表获取端口和盘上报的历史操作日志信息;
S15,将告警、日志、性能、拓扑四者关联,依据光通道故障诊断关联库进行以时间点粒度的健康状态标注;
S16,用关联标注好的数据进行数据探索,构造机器学习的样本特征数据;
S17,进行数据预处理,过滤异常数据、计算最大最小值、峰度、平均值、方差、标准差和偏度;
S18,补全缺失值,对误码率取log10,归一化得到机器学习模型训练的输入样本数据集。
本发明的一个实施例中,所述光层性能数据包括:合波功率,单波功率、光信噪比、误码率、增益、衰减、光纤衰耗和平坦度。
本发明的一个实施例中,所述步骤S1中依据光通道故障诊断关联库完成健康状态标注,包括:
光通道故障诊断关联库,由运维经验的判断规则构成,依据这些运维规则,判断光通道的健康状态;判断顺序为:先外部后内部,先分析高级别告警后分析低级别告警,先处理多波信号告警后分析单波信号告警,先双向告警后单向告警;根据影响业务范围确定是单通道还是多通道问题;若多波存在问题,则分析合波通道上单板和光纤、光缆,比较光功率的历史正常值和当前值,判断是单板故障还是光纤、光缆故障;若单波存在问题,则是源盘、宿盘单板故障或连纤问题;
对有问题的光通道标注出相应的健康状态。
本发明的一个实施例中,所述步骤S2中迁移学习的方式包括:样本迁移、特征迁移、模型迁移和关系迁移,其中:
所述样本迁移适用于通过对训练区域中标注样本的加权利用完成知识迁移,当推理区域和训练区域数据分布、网络布局一致或相似时,能够用训练态样本迁移,完成未来模型的迁移;
所述特征迁移适用于通过将训练区域和推理区域映射到相同的空间或者将其映射到另一个空间中并最小化训练区域和目标区域的差距来完成知识迁移;
所述模型迁移适用于将训练区域和目标域的模型与样本结合起来调整模型的参数;
所述关系迁移适用在训练区域中学习概念之间的关系,然后将其类比到目标域中,完成知识的迁移。
本发明的一个实施例中,所述步骤S1中标注的健康状态包括:健康、亚健康、故障和业务中断四种状态。
本发明的一个实施例中,所述步骤S1中完成告警数据的时间切片和分组,包括:
告警是带告警发生时间的一条告警信息数据,依据告警发生时间将告警数据按照时间切片,将切片后的告警序列按照告警名称和告警原理分组,名称相似或者同一层次发生的告警,认为是相关的一个告警组。
按照本发明的另一方面,还提供了一种基于迁移学习的光通道故障诊断系统,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述基于迁移学习的光通道故障诊断方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)应用本发明方法,在引入新型号的单盘时,无需积累大量数据,可基于小样本建立准确的模型预估光通道状态;
(2)应用本发明方法,对于训练区域和推理区域(比如湖北和浙江)不同的场景,无需积累大量历史数据,可基于训练区域提取样本、特征、模型、关系完成迁移学习,适用于当前数据不公开的电信场景;
(3)应用本发明方法,对于同一推理区域,当拓扑等信息发生改变时,可近似拟合小样本数据模型,降低了对数据量的要求,缩减了训练等待时间。具体地,对同一推理区域,当拓扑信息发生改变时,可能是某个光通道上主光路故障切换至备用光路,或者是业务割接导致光通道上光路切换。最终都会导致某些光通道经过的某些单盘发生改变。传统的方式都需要重新积累很长时间的样本数据才能对这些拓扑发生过变化的光通道进行构建模型,预估光通道的状态。但是引入迁移学习后,将这些光通道和以前的光通道进行特征、关系的类比,去构造相似的样本,依据样本训练得到模型。
附图说明
图1为本发明实施例中基于迁移学习的光通道故障诊断方法的流程示意图;
图2为本发明实施例中分析对象OCH、OTS、OMS的静态关系示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
传统的机器学习训练的模型,依赖独立同分布的前提,且在训练过程中需要大量的标注样本。不同的数据往往存在分布差异,如何利用训练好的模型推理新的数据,需要引入迁移学习。适应的迁移学习主要包括样本迁移、特征迁移、模型迁移、关系迁移等。本发明通过对OTN网络中光层OCH(Optical channel,光通道)、OMS(optical multiplex section,光复用段)、OTS(optical transmission section,光传输段)告警、性能和日志,构建健康度状态分析模型对路径健康状态进行分析,具体来讲是一种基于迁移学习实现光通道路径的亚健康感知和故障诊断方法,重点包括基于样本、特征、关系、模型迁移学习如何做到光通道的业务中断、故障、亚健康、健康四状态判断和故障诊断。
为达到以上目的,如图1所示,本发明提供了一种基于迁移学习的光通道故障诊断方法,包括以下步骤:
S1、获取某一训练区域的光网络性能、告警、日志和拓扑数据,完成告警数据的时间切片和分组,将光网络性能、告警、日志和拓扑数据关联,依据光通道故障诊断关联库完成健康状态标注,构建模型训练所需要的数据样本集;
具体地,获取某一区域(比如运营商某地网络中)的光网络性能、告警、日志、拓扑等数据,例如如图2所示,光通道从线路盘经由放大盘等多个对象回到线路盘,依据光通道的拓扑数据,得到每个点的三元组信息(网元ID+盘ID+端口ID),依据网元、单盘、端口,匹配每个点的告警、性能和操作日志。通过告警名称和告警发生时间,完成告警数据分组和切片,将同类告警引起的主要告警、伴随告警归为一组,将一定时间如15分钟内发生的告警序列认为它们根因有关联,故归为同一个告警序列中。完成光通道数据的拓扑、性能、告警、日志四者关联后,依据“光通道故障诊断关联库”进行健康状态标注,比如健康、亚健康、故障、业务中断四种状态;将得到的关联数据进行数据探索,找到告警、性能和光通道四种状态的相应关联关系(比如哪些告警能直接表征业务中断或故障,哪些性能的趋势加告警能表征亚健康),从而多维度、多方面、多特征构建数据样本集;
其中,所述光通道故障的分析对象,包括OCH光通道路径、OMS复用段路径和OTS光纤链路;
进一步地,所述的光通道故障的类型包括:线路盘故障、放大盘板卡故障、电源故障、光模块故障、光功率不足或光功率过高等各种不同类型的光传输网络故障。
进一步地,所述步骤S1具体包括以下流程:
S11,获取某一训练区域(比如运营商某地网络中)OCH、OMS、OTS分层路由ID和端口信息,整理成端口信息表;
S12,根据端口信息表获取端口上报的光层性能数据(包括合波功率、单波功率、OSNR(Optical Signal to Noise Ratio,光信噪比)、BER(Bit Error Rate,误码率)、增益、衰减、光纤衰耗以及平坦度);
S13,根据端口信息表获取端口和盘上报告警信息,按预设规则(依据网管保存历史数据设定的相应规则)过滤,去掉伴随告警,完成告警数据的时间切片和分组。告警是带告警发生时间的一条告警信息数据,依据告警发生时间将告警数据按照时间切片,将切片后的告警序列按照告警名称和告警原理分组,名称相似或者同一层次发生的告警,认为是相关的一个告警组。
比如分成FEC(Forward Error Correction,前向纠错)类、SM(Segment Managed段监视)类、功率类、倒换类、PM(Passageway Managed通道监视)类、LASER(Laser,激光器)类以及其它类等;
S14,根据端口信息表获取端口和盘上报的历史操作日志信息;
S15,将告警、日志、性能、拓扑四者关联,依据光通道故障诊断关联库进行以时间点粒度的健康状态标注(程序自动标注),主要包括业务中断、故障、亚健康和健康四种状态;
所述依据光通道故障诊断关联库完成健康状态标注包括;
光通道故障诊断关联库,由运维经验的判断规则构成,依据这些运维规则,判断光通道的健康状态;判断顺序为:先外部后内部,先分析高级别告警后分析低级别告警,先处理多波信号告警后分析单波信号告警,先双向告警后单向告警;根据影响业务范围确定是单通道还是多通道问题;若多波存在问题,则分析合波通道上单板和光纤、光缆,比较光功率的历史正常值和当前值,判断是单板故障还是光纤、光缆故障;若单波存在问题,通常原因是源盘、宿盘单板故障或连纤问题。对有问题的光通道标注出相应的健康状态。
OMS代表的是多波分析对象,OCH代表源宿端口单波分析对象,OTS代表多波OMS内部跨网元的连纤。在排查光功率问题时,先以OMS端为观察对象,波数不变情况下,OMS信号总功率和设计时的理论功率值差值应不超过2dB。放大盘光功率的变化24小时应不超过±1dB。OCH的源、宿端单波光功率和设计时的理论功率值差值应不超过2dB。OMS上应保证功率均衡,即放大盘扫波的单波功率与OMS平均值的差值,如果该波长的功率与平均值的差不超过告警门限,则认为功率均衡。
例如,从现网的数据中,依据拓扑关联告警、性能,发现某条光通道在某个周期内,发生了帧丢失告警,即可对这条光通道在这个周期内标注为业务中断。某些明确的告警可以直接判断故障、业务中断,但是亚健康状态需要依据运维经验,结合告警和性能的异常变化来判断。一条某个周期内已标注的光通道即可作为一条标注样本数据。
S16,用关联标注好的数据进行数据探索,构造机器学习的样本特征数据;
S17,进行数据预处理,过滤异常数据、计算最大最小值、峰度、平均值、方差、标准差和偏度;
S18,补全缺失值(比如中位数、最近历史值、前后真实值的平均值、经验值等方式补全缺失值)、对误码率取log10,归一化得到机器学习模型训练输入样本数据集。
S2、基于推理区域(当前区域或其它区域网络)的需求和数据情况,从数据样本集中提取训练态样本、训练态特征、训练态关系;选择迁移学习的方式,包括:样本迁移、特征迁移、模型迁移、关系迁移四种;依据迁移方式,输入提取的训练态样本、训练态特征、训练态关系进行模型训练,得到光通道状态诊断训练态模型。
其中,所述步骤S2具体包括以下流程:
步骤S21:基于推理区域(当前区域或其它区域网络)的需求和数据情况,选择迁移学习的方式。
样本迁移主要适用于通过对训练区域中标注样本的加权利用完成知识迁移,当推理区域和训练区域数据分布、网络布局一致或相似时,可以用训练态样本迁移,完成未来模型的迁移;特征迁移主要适用于通过将训练区域和推理区域映射到相同的空间(或者将其映射到另一个空间中)并最小化源区域和目标区域的差距来完成知识迁移,比如推理区域(告警分组、告警切片规则、光通道故障诊断关联库)都可利用训练态特征迁移对训练区域结果完成;模型迁移主要适用于将训练区域和目标域的模型与样本结合起来调整模型的参数;因训练样本积累时间周期比推理区域可用数据长,所述训练样本的数量大于推理区域数据的数量,需要加载推理区域的数据训练光通道状态诊断训练态模型;关系迁移主要适用在训练区域中学习概念之间的关系,然后将其类比到目标域中,完成知识的迁移。比如在跨厂家分析时,可以将训练区域训练态关系(规则过滤、数据聚合方法)类比到其它厂家设备,完成关系迁移;
Figure BDA0002835885890000101
步骤S22:依据迁移方式,准备训练态样本、训练态特征、训练态关系,进行模型训练,得到光通道状态诊断训练态模型。
S3、依据训练态样本、训练态特征、训练态关系、光通道状态诊断训练态模型,选取推理区域(当前区域或其它区域网络)的光网络性能、告警、日志、拓扑等数据,将光通道数据关联后并进行健康状态标注,比如健康、亚健康、故障、业务中断四种状态,作为推理态样本;
其中,所述步骤S3具体包括以下流程:
S31:依据训练态样本、训练态特征、训练态关系、光通道状态诊断训练态模型,选取推理区域(当前区域或其它区域网络)的光网络性能、告警、日志、拓扑等数据,将光通道数据关联;
S32:将关联后数据进行健康状态标注,比如健康、亚健康、故障、业务中断四种状态,作为推理态样本。
S4、将推理态样本载入光通道状态诊断训练态模型中,训练新的光通道状态诊断推理态模型,使用光通道状态诊断推理态模型对训练态样本和推理态样本进行状态预测,使已知状态的数据的预测结果和真实结果F1score之间的差异量小于预设阈值,即认为新生成的光通道状态诊断推理态模型满足了推理区域的故障诊断要求。
S41:将推理态样本载入光通道状态诊断训练态模型中,训练新的光通道状态诊断推理态模型,使用光通道状态诊断推理态模型对训练态样本和推理态样本进行状态预测;
S42:使已知状态的数据预测的结果和真实结果F1score差异量小于阈值,即认为新生成的光通道状态诊断推理态模型满足了推理态样本所归属的区域的故障诊断模型。
S5、调用所述新生成的光通道状态诊断推理态模型,得到分析对象光通道的健康状态,比如识别健康、亚健康、故障、业务中断四种状态,作为后期早期干预排查隐患的依据。即完成了迁移学习在光通道故障诊断上的应用。
以下结合一具体实施例进一步说明本发明基于迁移学习实现光通道路径的故障诊断方法。如图1所示,本发明一种基于迁移学习实现光通道路径的故障诊断方法,步骤如下:
S1、获取某一区域(比如运营商某地网络中)的光网络性能、告警、日志、拓扑等数据,完成告警数据分组和切片,将光通道数据关联,依据光通道故障诊断关联库并进行健康状态标注,比如健康、亚健康、故障、业务中断四种状态;将得到的关联数据进行数据探索,多维度、多方面、多特征构建数据样本集;
S11,获取某一区域(比如运营商某地网络中)OCH、OMS、OTS分层获取路由ID和端口信息,整理成端口信息表,以单条OCH为例端口信息表如下表:
Figure BDA0002835885890000111
Figure BDA0002835885890000121
Figure BDA0002835885890000131
S12,以端口信息表获取端口上报的光层性能数据(合波功率,单波功率、OSNR、BER、增益、衰减、光纤衰耗,平坦度);
S13,以端口信息表获取端口和盘上报告警信息,按一定的规则过滤,去掉伴随告警,完成告警数据的时间切片和分组。
告警是带告警发生时间的一条告警信息数据,依据告警发生时间,将告警数据按照时间切片,比如同一对象上1小时之内发生的连续告警时间认为同一根因引发,则以小时级别来切片。
将切片后的告警序列按照告警名称和告警原理分组,名称相似或者同一层次发生的告警,认为是相关的一个告警组。告警组具体可以包括:FEC类、SM类、功率类、倒换类、PM类、LASER类、其它类等。
S14,以端口信息表获取端口和盘上报的历史操作日志信息。
S15,将告警、日志、性能、拓扑四者关联,依据光通道和故障诊断关联库,进行以时间点粒度的健康状态标注,主要包括业务中断、故障、亚健康和健康四种状态。故障诊断关联库的判断原则:先外部后内部,先分析后低级告警,先处理多波后单波,先双向告警后单向告警;根据影响业务范围确定是单通道还是多通道问题;若多波存在问题,则分析合波通道上单板和光纤、光缆,比较光功率的历史正常值和当前值,判断是单板故障还是光纤、光缆故障;若单波存在问题,通常原因是源盘、宿盘单板故障或连纤问题。OMS代表的是多波分析对象,OCH代表源线路盘到宿线路盘端口单波通道,OTS代表多波OMS内部跨网元的连纤。在排查光功率问题时,先以OMS端为观察对象,波数不变情况下,OMS信号总功率和设计时的理论功率值差值应不超过2dB。放大盘光功率的变化24小时应不超过±1dB。OCH的源、宿端单波光功率和设计时的理论功率值差值应不超过2dB。OMS上应保证功率均衡,即OA盘扫波的单波功率与OMS平均值的差值,如果该波长的功率与平均值的差不超过告警门限,则认为功率均衡(即平坦度正常)。
S16,用关联标注好的数据进行数据探索,构造机器学习的样本特征数据。进行数据预处理,过滤异常数据、计算最大最小值、峰度、平均值、方差、标准差和偏度。补全缺失值、对误码率取log10,归一化得到机器学习模型训练输入样本数据集。
S2、基于推理区域(当前区域或其它区域网络)的需求和数据情况,选择迁移学习的方式,包括:样本迁移、特征迁移、模型迁移、关系迁移四种;依据迁移方式,准备训练态样本、训练态特征、训练态关系,进行模型训练,得到光通道状态诊断训练态模型。
S3、依据训练态样本、训练态特征、训练态关系、光通道状态诊断训练态模型,选取推理区域(当前区域或其它区域网络)的光网络性能、告警、日志、拓扑等数据,将光通道数据进行健康状态标注,比如健康、亚健康、故障、业务中断四种状态,作为推理态样本;
S4、将推理态样本载入光通道状态诊断训练态模型中,训练新的光通道状态诊断推理态模型,使光通道状态诊断推理态模型对训练态样本和推理态样本进行状态预测,使已知状态的数据预测的结果和真实结果F1score差异量小于阈值,即认为新生成的光通道状态诊断推理态模型满足了推理区域的故障诊断模型。
S41,将推理态样本载入光通道状态诊断训练态模型中,训练新的模型;
S42,借鉴GAN网络逼近原理,在原训练态样本和目标推理态样本分别载入已训练光通道状态诊断训练态模型,使分类预测的概率差异(F1scoce的差异)逐步逼近阈值,此时的模型适用于推理态样本。
如下表所示,以预测状态1为例,
精确率p=TP/(TP+FP)是针对预测结果而言,表示预测为状态1的样本有多少真正的状态1样本;
召回率r=TP/(TP+FN)表示原样本中状态1的有多少被预测正确了。
F1 SCore=2*p*r/(p+r),兼顾两者。
预测值为状态1 预测值为非状态1
真实值为状态1 TP FN
真实值为非状态1 FP TN
机器学习领域,分类问题的精确度有多种评价指标,比如召回率、精确率、ROC曲线、F1 Score等;本文通过计算F1score评估模型的性能。
因为状态有四种,具体包括健康、亚健康、故障、业务中断四种状态,因此,使F1score差值满足:
Figure BDA0002835885890000151
当F1score差异量小于阈值,即认为新生成的光通道状态诊断推理态模型满足了推理区域的故障诊断光通道状态诊断推理态模型。
S5、调用光通道状态诊断推理态模型,得到分析对象光通道的健康状态,比如识别健康、亚健康、故障、业务中断四种状态,作为后期早期干预排查隐患的依据。即完成了迁移学习在光通道故障诊断上的应用。
进一步地,本发明还提供了一种基于迁移学习的光通道故障诊断系统,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于迁移学习的光通道故障诊断方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于迁移学习的光通道故障诊断方法,其特征在于,包括以下步骤:
S1、获取某一训练区域的光网络性能、告警、日志和拓扑数据,完成告警数据的时间切片和分组,将光网络性能、告警、日志和拓扑数据关联,依据光通道故障诊断关联库完成健康状态标注,构建模型训练所需要的数据样本集;
S2、基于推理区域的需求和数据情况,从数据样本集中提取训练态样本、训练态特征、训练态关系;选择迁移学习的方式,输入提取的训练态样本、训练态特征、训练态关系进行模型训练,得到光通道状态诊断训练态模型;
S3、依据训练态样本、训练态特征、训练态关系、光通道状态诊断训练态模型,选取推理区域的光网络性能、告警、日志和拓扑数据,将光通道数据进行健康状态标注,作为推理态样本;
S4、将推理态样本载入光通道状态诊断训练态模型中,训练光通道状态诊断推理态模型,使光通道状态诊断推理态模型对训练态样本和推理态样本进行状态预测,如使已知状态的数据的预测结果和真实结果之间的差异量小于预设阈值,即认为新生成的光通道状态诊断推理态模型满足了推理区域的故障诊断要求;
S5、调用所述新生成的光通道状态诊断推理态模型,得到分析对象光通道的健康状态,作为早期干预排查隐患的依据。
2.如权利要求1所述的基于迁移学习的光通道故障诊断方法,其特征在于,所述光通道故障的分析对象,包括OCH光通道路径、OMS复用段路径和OTS光纤链路。
3.如权利要求1或2所述的基于迁移学习的光通道故障诊断方法,其特征在于,所述光通道故障的类型包括:线路盘故障、放大盘板卡故障、电源故障、光模块故障、光功率不足或光功率过高故障。
4.如权利要求1或2所述的基于迁移学习的光通道故障诊断方法,其特征在于,所述步骤S1包括:
S11,获取某一训练区域的OCH、OMS、OTS分层路由ID和端口信息,整理成端口信息表;
S12,根据端口信息表获取端口上报的光层性能数据;
S13,根据端口信息表获取端口和盘上报告警信息,按预设规则过滤,去掉伴随告警,完成告警数据的时间切片和分组;
S14,根据端口信息表获取端口和盘上报的历史操作日志信息;
S15,将告警、日志、性能、拓扑四者关联,依据光通道故障诊断关联库进行以时间点粒度的健康状态标注;
S16,用关联标注好的数据进行数据探索,构造机器学习的样本特征数据;
S17,进行数据预处理,过滤异常数据、计算最大最小值、峰度、平均值、方差、标准差和偏度;
S18,补全缺失值,对误码率取log10,归一化得到机器学习模型训练的输入样本数据集。
5.如权利要求4所述的基于迁移学习的光通道故障诊断方法,其特征在于,所述光层性能数据包括:合波功率,单波功率、光信噪比、误码率、增益、衰减、光纤衰耗和平坦度。
6.如权利要求1或2所述的基于迁移学习的光通道故障诊断方法,其特征在于,所述步骤S1中依据光通道故障诊断关联库完成健康状态标注,包括:
光通道故障诊断关联库,由运维经验的判断规则构成,依据这些运维规则,判断光通道的健康状态;判断顺序为:先外部后内部,先分析高级别告警后分析低级别告警,先处理多波信号告警后分析单波信号告警,先双向告警后单向告警;根据影响业务范围确定是单通道还是多通道问题;若多波存在问题,则分析合波通道上单板和光纤、光缆,比较光功率的历史正常值和当前值,判断是单板故障还是光纤、光缆故障;若单波存在问题,则是源盘、宿盘单板故障或连纤问题;
对有问题的光通道标注出相应的健康状态。
7.如权利要求1或2所述的基于迁移学习的光通道故障诊断方法,其特征在于,所述步骤S2中迁移学习的方式包括:样本迁移、特征迁移、模型迁移和关系迁移,其中:
所述样本迁移适用于通过对训练区域中标注样本的加权利用完成知识迁移,当推理区域和训练区域数据分布、网络布局一致或相似时,能够用训练态样本迁移,完成未来模型的迁移;
所述特征迁移适用于通过将训练区域和推理区域映射到相同的空间或者将其映射到另一个空间中并最小化训练区域和目标区域的差距来完成知识迁移;
所述模型迁移适用于将训练区域和目标域的模型与样本结合起来调整模型的参数;
所述关系迁移适用在训练区域中学习概念之间的关系,然后将其类比到目标域中,完成知识的迁移。
8.如权利要求1或2所述的基于迁移学习的光通道故障诊断方法,其特征在于,所述步骤S1中标注的健康状态包括:健康、亚健康、故障和业务中断四种状态。
9.如权利要求1或2所述的基于迁移学习的光通道故障诊断方法,其特征在于,所述步骤S1中完成告警数据的时间切片和分组,包括:
告警是带告警发生时间的一条告警信息数据,依据告警发生时间将告警数据按照时间切片,将切片后的告警序列按照告警名称和告警原理分组,名称相似或者同一层次发生的告警,认为是相关的一个告警组。
10.一种基于迁移学习的光通道故障诊断系统,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-9任一项所述的基于迁移学习的光通道故障诊断方法。
CN202011470079.6A 2020-12-15 2020-12-15 一种基于迁移学习的光通道故障诊断方法和系统 Active CN112752172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011470079.6A CN112752172B (zh) 2020-12-15 2020-12-15 一种基于迁移学习的光通道故障诊断方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011470079.6A CN112752172B (zh) 2020-12-15 2020-12-15 一种基于迁移学习的光通道故障诊断方法和系统

Publications (2)

Publication Number Publication Date
CN112752172A CN112752172A (zh) 2021-05-04
CN112752172B true CN112752172B (zh) 2022-03-25

Family

ID=75648452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011470079.6A Active CN112752172B (zh) 2020-12-15 2020-12-15 一种基于迁移学习的光通道故障诊断方法和系统

Country Status (1)

Country Link
CN (1) CN112752172B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492869A (zh) * 2022-01-25 2022-05-13 王启明 一种基于物联网技术的配电系统健康诊断方法
CN117376085A (zh) * 2022-06-29 2024-01-09 中兴通讯股份有限公司 光网络健康监测方法、管理单元、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905784A (zh) * 2019-01-16 2019-06-18 国家电网有限公司 一种光网络波长分配的业务重构方法及设备
CN111400930A (zh) * 2020-04-09 2020-07-10 武汉大学 基于虚实孪生空间的电力设备小样本故障诊断方法及系统
WO2020168676A1 (zh) * 2019-02-21 2020-08-27 烽火通信科技股份有限公司 一种网络故障处理模型的构建方法、故障处理方法及系统
CN111950596A (zh) * 2020-07-15 2020-11-17 华为技术有限公司 一种用于神经网络的训练方法以及相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905784A (zh) * 2019-01-16 2019-06-18 国家电网有限公司 一种光网络波长分配的业务重构方法及设备
WO2020168676A1 (zh) * 2019-02-21 2020-08-27 烽火通信科技股份有限公司 一种网络故障处理模型的构建方法、故障处理方法及系统
CN111400930A (zh) * 2020-04-09 2020-07-10 武汉大学 基于虚实孪生空间的电力设备小样本故障诊断方法及系统
CN111950596A (zh) * 2020-07-15 2020-11-17 华为技术有限公司 一种用于神经网络的训练方法以及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于GAN样本生成技术的智能诊断方法;马波等;《振动与冲击》;20200928(第18期);全文 *

Also Published As

Publication number Publication date
CN112752172A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
US11722217B2 (en) Method and apparatus for obtaining ODN logical topology information, device, and storage medium
CN112752172B (zh) 一种基于迁移学习的光通道故障诊断方法和系统
KR102444602B1 (ko) 광 링크 장애 식별 방법, 장치 및 시스템
Barzegar et al. Soft-failure detection, localization, identification, and severity prediction by estimating QoT model input parameters
EP3447966B1 (en) System and method for proactive traffic restoration in a network
CN108111361B (zh) 基于大数据分析的传输网络故障定位分析方法及系统
US11894969B2 (en) Identifying root causes of network service degradation
Rafique et al. Analytics-driven fault discovery and diagnosis for cognitive root cause analysis
US20220294529A1 (en) Analyzing performance of fibers and fiber connections using long-term historical data
CN114866137B (zh) 电力光缆网的检测方法及装置
US10735099B2 (en) Method and apparatus for performing event-driven diagnostics or prognostics of a network behaviour of a hierarchical optical network
CN113037365B (zh) 一种识别光通道生命周期运维状态的方法与装置
Notaro et al. An optical transceiver reliability study based on sfp monitoring and os-level metric data
Patri et al. Machine learning enabled fault-detection algorithms for optical spectrum-as-a-service users
CN110336606B (zh) 一种基于参数估计与业务识别的电力光网络故障诊断方法
TWI731636B (zh) 寬頻迴路電纜品質監測系統與方法
CN113935630A (zh) 一种基于scd和spcd的变电站二次系统链路故障排查指引方法
CN110176956B (zh) Otn电路端到端质量评估的方法及系统
CN113065001A (zh) 一种故障止损方法及装置
Mitropoulou et al. Soft Failure Detection, Categorization and Localization
US11477070B1 (en) Identifying root causes of network service degradation
Fan et al. Machine Learning Based Optical Transmission System Link Performance Degradation Prediction and Application
Wang et al. Unavailability Analyses of Hyperscale Data Center Interconnect Optical Networks with Optical Layer Protection
EP3541017B1 (en) Method and apparatus for monitoring a telecommunication network
US12019869B2 (en) Method, electronic device, and computer program product for scheduling data collection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant