CN117081666B - 故障预测方法、装置、电子设备、存储介质及程序产品 - Google Patents

故障预测方法、装置、电子设备、存储介质及程序产品 Download PDF

Info

Publication number
CN117081666B
CN117081666B CN202311242318.6A CN202311242318A CN117081666B CN 117081666 B CN117081666 B CN 117081666B CN 202311242318 A CN202311242318 A CN 202311242318A CN 117081666 B CN117081666 B CN 117081666B
Authority
CN
China
Prior art keywords
optical module
index data
sampling time
index
time point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311242318.6A
Other languages
English (en)
Other versions
CN117081666A (zh
Inventor
罗慧芬
罗哲
肖晨
李�城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311242318.6A priority Critical patent/CN117081666B/zh
Publication of CN117081666A publication Critical patent/CN117081666A/zh
Application granted granted Critical
Publication of CN117081666B publication Critical patent/CN117081666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/07Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems
    • H04B10/075Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal
    • H04B10/079Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal using measurements of the data signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q2011/0079Operation or maintenance aspects

Abstract

本申请提供了一种故障预测方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:获取目标时间序列,其中,所述目标时间序列包括多个采样时间点;获取光模块的多个信道在所述多个采样时间点的指标数据,并对所述光模块的多个信道在所述多个采样时间点的指标数据进行基于时序机制的合成处理,得到所述光模块的合成指标数据;对所述光模块的合成指标数据进行基于残差机制的特征提取处理,得到所述光模块的合成指标特征;对所述光模块的合成指标特征进行概率映射处理,得到所述光模块所处链路的未来故障概率。通过本申请,能够通过光模块的多个信道的指标数据以及时序信息实现对链路的故障预测,从而提高链路稳定性。

Description

故障预测方法、装置、电子设备、存储介质及程序产品
技术领域
本申请涉及通信技术,尤其涉及一种故障预测方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
光模块是网络数据链路组成部件之一,连接着网元与网元、网元与服务器。各大企业的数据中心通常运行着数百万的互联光模块,光模块老化、光纤污染、光链路松动等带来了层出不穷的网络异常。在全网网络故障中,链路故障约占20%,相关技术中采取“检测告警”的方式可以知道光通信链路当前发生故障,
但是相关技术中的“检测告警”方式无法阻止故障的发生,只能在故障发生之后及时告警,从而影响光通信链路的稳定性。
发明内容
本申请实施例提供一种故障预测方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够通过光模块的多个信道的指标数据以及时序信息实现对链路的故障预测,从而提高链路稳定性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种故障预测方法,包括:
获取目标时间序列,其中,所述目标时间序列包括多个采样时间点;
获取光模块的多个信道在所述多个采样时间点的指标数据,并对所述光模块的多个信道在所述多个采样时间点的指标数据进行基于时序机制的合成处理,得到所述光模块的合成指标数据;
对所述光模块的合成指标数据进行基于残差机制的特征提取处理,得到所述光模块的合成指标特征;
对所述光模块的合成指标特征进行概率映射处理,得到所述光模块所处链路的未来故障概率。
本申请实施例提供一种故障预测装置,包括:
获取模块,用于获取目标时间序列,其中,所述目标时间序列包括多个采样时间点;
合并模块,用于获取光模块的多个信道在所述多个采样时间点的指标数据,并对所述光模块的多个信道在所述多个采样时间点的指标数据进行基于时序机制的合成处理,得到所述光模块的合成指标数据;
残差模块,用于对所述光模块的合成指标数据进行基于残差机制的特征提取处理,得到所述光模块的合成指标特征;
预测模块,用于对所述光模块的合成指标特征进行概率映射处理,得到所述光模块所处链路的未来故障概率。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的故障预测方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于引起处理器执行时,实现本申请实施例提供的故障预测方法。
本申请实施例提供一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令被处理器执行时,实现本申请实施例提供的故障预测方法。
本申请实施例具有以下有益效果:
通过本申请实施例获取光模块的多个信道在多个采样时间点的指标数据,并对光模块的多个信道在多个采样时间点的指标数据进行基于时序机制的合成处理,得到光模块的合成指标数据,从而可以对多个通道的指标数据进行感知,并且基于时序机制进行融合,可以考虑到时序信息,最终可以有助于提高故障预测准确度,对光模块的合成指标数据进行基于残差机制的特征提取处理,得到光模块的合成指标特征,对光模块的合成指标特征进行概率映射处理,得到光模块所处链路的未来故障概率,通过残差机制可以提高在概率映射处理所得到的故障预测准确度。
附图说明
图1是本申请实施例提供的故障预测系统的结构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3A是本申请实施例提供的故障预测方法的第一流程示意图;
图3B是本申请实施例提供的故障预测方法的第二流程示意图;
图3C是本申请实施例提供的故障预测方法的第三流程示意图;
图3D是本申请实施例提供的故障预测方法的第四流程示意图;
图4是本申请实施例提供的故障预测方法的网络物理链路的架构示意图;
图5是本申请实施例提供的故障预测方法的链路故障预测告警示意图;
图6是本申请实施例提供的故障预测方法的故障预测流程示意图;
图7是本申请实施例提供的故障预测方法的输入指标示意图;
图8是本申请实施例提供的故障预测方法的残差模块示意图;
图9是本申请实施例提供的故障预测方法的单通道预测示意图;
图10是本申请实施例提供的故障预测方法的多通道预测示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)简单网络管理协议(SNMP,Simple Network Management Protocol):是一种用于网络设备管理的标准协议,可以用于管理设备的检测、配置管理、故障诊断、远程管理。
2)网络物理链路(下文简称链路):一条网络物理链路两端各由一台交换机的一个端口连接而成。
3)显性故障:指网络物理链路出现端口震荡、端口错包、端口关闭现象,当显性故障出现时,其所在链路传输的信号不可达,影响网络质量。
4)数字诊断检测(DDM,Digital Diagnostic Monitoring):是光模块中使用的技术,其中核心5项指标包括工作温度、工作电压、工作电流、发射功率、接收功率,数字诊断检测用于检测光模块的工作状态,帮助系统定位模块的问题。
5)Spark:一个快速、通用、可扩展的大数据处理和分析引擎,Spark提供分布式计算框架,将数据加载到内存进行高效的处理,其核心概念是弹性分布式数据集,能在集群中进行分布式计算。
6)小程序:小程序是一种不需要下载安装即可使用的应用,用户扫一扫或者搜一下即可打开应用,用户不用关心是否安装太多应用的问题,应用将无处不在,随时可用,但又无需安装卸载。
7)ReLU(Rectified Linear Unit,修正显性激活单元):是一种常用的激活函数,当输入大于等于0,则输出等于输入;当输入小于0,则输出为0。由于其非线性特性,能更好地传播梯度。
8)Xavier:是一种神经网络参数初始化的方法,根据输入和输出神经元的数量进行计算,使用均匀分布或者高斯分布,让每层的输出的方差,保持相对一致。
9)AdamW:一种基于优化器Adam的变种,在Adam优化器的基础上引入了权重衰减。
相关技术根据光模块的工作参数对应的分类样本集确定工作参数的分类阈值,并根据分类阈值与待检测序列中的多个测量值的比较结果,预测该待检测序列对应的光模块在将来是否会发生故障。
申请人在实施本申请实施例时发现当光模块数量超过百万级别时,相关技术的技术方案的预测准确率低、复杂度高、并且消耗计算资源过大。具体而言,相关技术中基于指标阈值的方案的预测准确率极低,无法应用于生产环境。相关技术中基于机器学习/深度学习的分类方案,在正负样本比例极不均衡的情况下,在生产环境中难以获得较优的表现,尤其是故障预测是典型的异常样本稀缺场景,正样本(亚健康样本)极少,负样本(健康样本)极多,相关技术较难适用于大规模现网环境,当模型参数量很大时,在异常样本稀缺的情况下,模型较难获得很好的表现。当光模块数量超过百万级别时,时间序列超过亿级别,相关技术中的预测方案会带来较大的计算资源消耗。
本申请实施例提供一种故障预测方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够通过光模块的多个信道的指标数据以及时序信息实现对链路的故障预测,从而提高链路稳定性。
下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为终端或服务器。
参考图1,示例的,图1中涉及服务器200、网络300及终端400。终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,服务器200可以是应用程序对应的服务器,例如:应用程序是安装在终端400中的故障检测软件,则服务器200是故障检测服务器,用于执行故障预测处理,并将故障预测结果反馈至终端进行显示,本申请实施例所使用的故障检测软件可以用于DDM系统。
在一些实施例中,终端400接收到针对任一链路的故障预测请求,并将故障预测请求发送到服务器200,服务器200获取目标时间序列,其中,目标时间序列包括多个采样时间点;获取光模块的多个信道在多个采样时间点的指标数据,并对光模块的多个信道在多个采样时间点的指标数据进行基于时序机制的合成处理,得到光模块的合成指标数据(基于时序机制的合成处理指的是按照采样时间点的先后顺序对在每个采样时间点的指标数据进行合并处理);对光模块的合成指标数据进行基于残差机制的特征提取处理,得到光模块的合成指标特征(基于残差机制的特征提取处理是利用残差网络进行特征提取处理);对光模块的合成指标特征进行概率映射处理,得到光模块所处链路的未来故障概率。当未来故障概率大于故障概率阈值时,服务器200预测该链路未来会发生故障,服务器200将未来故障概率以及预测该链路未来会发生故障的预测结果返回至终端400进行显示。
在一些实施例中,终端400向服务器发出针对每个链路的轮询故障预测请求,并将轮询故障预测请求发送到服务器200,服务器200获取目标时间序列,其中,目标时间序列包括多个采样时间点;获取光模块的多个信道在多个采样时间点的指标数据,并对光模块的多个信道在多个采样时间点的指标数据进行基于时序机制的合成处理,得到光模块的合成指标数据;对光模块的合成指标数据进行基于残差机制的特征提取处理,得到光模块的合成指标特征;对光模块的合成指标特征进行概率映射处理,得到光模块所处链路的未来故障概率。当未来故障概率大于故障概率阈值时,服务器200预测该链路未来会发生故障,服务器200将未来故障概率以及预测该链路未来会发生故障的预测结果返回至终端400进行显示。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。数据库可以集成在服务器200上,或者数据库可以设置在独立于服务器200的机器上,本申请实施例不做限制。
在一些实施例中,终端400可以通过运行计算机程序来实现本申请实施例提供的故障预测方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,例如故障检测APP;也可以是小程序,即不需要下载安装即可使用的应用程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
参见图2,图2是本申请实施例提供的电子设备的结构示意图,电子设备为终端或者服务器,以电子设备是服务器为例进行说明,图2所示的服务器包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。终端400中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,可以包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,可以包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,RandomAccess Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他电子设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的故障预测装置可以采用软件方式实现,图2示出了存储在存储器250中的故障预测装置255,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2551、合并模块2552、残差模块2553,预测模块2554、训练模块2555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
下面,说明本申请实施例提供的故障预测方法,如前,实现本申请实施例的故障预测方法的电子设备可以是终端或者服务器,以服务器为例进行说明。因此下文中不再重复说明各个步骤的执行主体。参见图3A,图3A是本申请实施例提供的故障预测方法的流程示意图,结合图3A示出的步骤101至步骤104进行说明。
在步骤101中,获取目标时间序列。
作为示例,目标时间序列包括多个采样时间点。目标时间序列是离散采样时间点组成的序列,可以以5分钟作为时间粒度进行指标数据采集,这里的目标时间序列对应的时间周期可以是1天,那么目标时间序列对应有288个采样时间点,即0时5分是第一个采样时间点,24时是第288个采样时间点。
在步骤102中,获取光模块的多个信道在多个采样时间点的指标数据,并对光模块的多个信道在多个采样时间点的指标数据进行基于时序机制的合成处理,得到光模块的合成指标数据。
作为示例,各大企业以及平台均有各自的数据中心,每个数据中心是由上万网络物理链路(下文简称链路)搭建而成,参见图4,链路A(交换机a的端口1与交换机b的端口1所构成的链路)两端各有一个光模块,光模块由光电子器件、功能电路和光接口等组成,光电子器件包括发射和接收两部分。简单的说,光模块的作用就是发送端把电信号转换成光信号,通过光纤传送后,接收端再把光信号转换成电信号。本申请所涉及到的光模块可以是一个光模块,还可以是指一条链路对应的两个光模块,下面详细介绍如何获取光模块在目标时间序列的指标数据。
在一些实施例中,参见图3B,步骤102中获取光模块的多个信道在多个采样时间点的指标数据,可以通过针对每个采样时间点执行图3B示出的步骤1021至步骤1024实现。
在步骤1021中,获取光模块的每个信道在采样时间点的原始指标数据。
在一些实施例中,当光模块包括链路对应的第一光模块和第二光模块时,步骤1021中获取光模块的每个信道在采样时间点的原始指标数据,可以通过以下技术方案实现获取第一光模块的每个信道在采样时间点的收光功率指标与发光功率指标;获取第二光模块的每个信道在采样时间点的收光功率指标与发光功率指标;将第一光模块的多个信道在采样时间点的收光功率指标与发光功率指标、第二光模块的多个信道在采样时间点的收光功率指标与发光功率指标组成光模块在采样时间点的原始指标数据。通过本申请实施例可以获取多个信道的多个维度的指标,从而可以提高指标的全面性,有助于后续提高预测准确度。
作为示例,获取光模块在目标时间序列的原始指标数据具体是指,获取两个光模块在目标时间序列对应的288个采样时间点,通过SNMP采集系统所采集的光模块的原始指标数据。
作为示例,参见图7,光模块由信号发送端和信号接收端构成。以光模块A将信号传输至光模块B为例,光模块A将输入的电信号转化为光信号,由光信号发送端发送,在光纤中传输。光模块B的光信号接收端接收到光信号后,将光信号转换成电信号,光模块B将信号传输至光模块A的过程同理。
发光功率指标记录着光模块发送端的光信号强度,收光功率指标记录着光模块接收端的光信号强度,单位是毫瓦分贝(dBm),针对某个链路A,可通过光模块A(第一光模块)的发射器、光模块A(第一光模块)的接收器、光模块B(第二光模块)的发射器、光模块B(第二光模块)的接收器所采集的指标记录链路的健康状况、信号的质量和系统的性能。指标数目总计为16个,分别是光模块A的发射器在四个信道的发光功率,光模块A的接收器在四个信道的收光功率/>,光模块B的接收器在四个信道的收光功率/>,光模块B的发射器在四个信道的收光功率,上述16个指标构成指标集合J,下文不再赘述。
在步骤1022中,对光模块的每个信道在采样时间点的原始指标数据进行数据清洗处理,得到光模块的每个信道在采样时间点的清洗指标数据。
在一些实施例中,步骤1022中对光模块的每个信道在采样时间点的原始指标数据进行数据清洗处理,得到光模块的每个信道在采样时间点的清洗指标数据,可以通过以下技术方案实现:将光模块的每个信道在采样时间点的原始指标数据中属于空值以及异常值的原始指标数据去除,得到保留的每个所述信道的原始指标数据;对保留的每个所述信道的原始指标数据中在每个信道的原始指标数据进行重复过滤处理,得到光模块的每个信道在采样时间点的清洗指标数据。通过本申请实施例可以确保数据有效性,避免无效数据影响后续预测准确度。
承接上述示例,当光模块包括第一光模块以及第二光模块时,光模块在目标时间序列中采样时间点i的原始指标数据可以表示为,/>代表第i个采样时间点对应的时间,代表第一光模块在第i个采样时间点在第k个信道的发光功率,/>代表第一光模块在第i个采样时间点在第k个信道的收光功率,/>代表第二光模块在第i个采样时间点在第k个信道的发光功率,/>代表第二光模块在第i个采样时间点在第k个信道的收光功率。
作为示例,在数据清洗过程中首先去除空值,即确保均为非空值,这里去除空值的处理可以是利用平均值对空值进行替换,例如若第一光模块在第i个采样时间点在第k个信道的发光功率是空值,则利用第一光模块在第k个信道的多个采样时间点的发光功率的平均值替换空值。接着处理异常值,此处确保/>均在正常取值区间内,可以通过实验的方式预先设定出收光功率、发光功率的下限取值和上限取值,这里的上限取值和下限取值约束正常取值区间,这里去除异常值的处理也可以是利用平均值对异常值进行替换,例如若第一光模块在第i个采样时间点在第k个信道的发光功率是异常值,则利用第一光模块在第k个信道的多个采样时间点的发光功率的平均值替换异常值。去除空值以及异常值之后再去除重复值,即确保在相同采样时间点的相同信道仅具有一个收光功率以及一个发光功率,将重复采集的指标数据去除,因为有时会在相同采样时间点采集两次原始指标数据,从而导致有两个相同的原始指标数据。
在步骤1023中,对光模块的每个信道在采样时间点的清洗指标数据进行数据压缩处理,得到光模块的每个信道在采样时间点的压缩指标数据。
作为示例,数据清洗处理之后需要进行行列变换处理,在通过Spark处理海量数据时,将行式数据转换为列式数据可以实现数据压缩,显著提升计算性能,该过程即行列变化处理。具体而言,提前将光模块的288行指标数据聚合为一行288列。
行列变换可定义为,/>是采样时间点标识集合,这里/>代表一天中第i个时间,/>是第i个时间的对应指标集合J的指标数据,/>是对应指标j的288列(分别对应288个采样时间点)指标数据,这里的指标j可以是任意一个信道的发光功率或者收光功率。
在步骤1024中,对光模块的每个信道在采样时间点的压缩指标数据进行标准化处理,得到光模块的每个信道在采样时间点的指标数据。
在一些实施例中,步骤1024中对光模块的每个信道在采样时间点的压缩指标数据进行标准化处理,得到光模块的每个信道在采样时间点的指标数据。标准化处理,具体可以通过以下技术方案实现:针对每个信道执行以下处理:对光模块的信道在采样时间点对应每个指标维度的压缩指标数据进行标准化处理,得到光模块的信道在采样时间点对应每个指标维度的指标数据;将光模块的信道在采样时间点对应多个指标维度的指标数据组成光模块的信道在采样时间点的指标数据。
其中,对光模块的信道在采样时间点对应每个指标维度的压缩指标数据进行标准化处理,具体可以通过以下技术方案实现:针对每个指标维度,获取光模块的信道在多个采样时间点对应指标维度的压缩指标数据中最大压缩指标数据以及最小压缩指标数据;获取最大压缩指标数据与最小压缩指标数据之间的第一差值;获取光模块的信道在采样时间点的压缩指标数据与最小压缩指标数据之间的第二差值;将第二差值与第一差值之间的比值作为光模块的信道在采样时间点对应指标维度的指标数据。
通过本申请实施例可以将所有的压缩指标数据标准化至相同水平,从而后续基于残差机制进行特征提取以及概率映射时可以提高故障预测准确度以及故障预测效率。
作为示例,数据标准化定义为,参见公式(1):
(1);
其中,J是上文的指标集合,是采样时间点i在指标j的指标数据,/>是采样时间点i在指标j的压缩指标数据,/>是在指标j的所有采样时间点的压缩指标数据中最小压缩指标数据,/>是在指标j的所有采样时间点的压缩指标数据中最大压缩指标数据,公式(1)中所涉及到的所有数据均是对应于相同信道、相同光模块以及相同指标种类,例如,指标j是第一光模块的第1个信道的收光功率。
在一些实施例中,步骤102中对光模块的多个信道在多个采样时间点的指标数据进行基于时序机制的合成处理,得到光模块的合成指标数据,可以通过以下技术方案实现:针对每个采样时间点执行以下处理:对光模块的多个信道在采样时间点的指标数据进行拼接处理,得到光模块在采样时间点的拼接指标数据;基于多个采样时间点的先后顺序,对光模块在多个采样时间点的拼接指标数据进行排序处理,得到排序结果;基于排序结果对光模块在多个采样时间点的拼接指标数据进行拼接处理,得到光模块的合成指标数据。通过本申请实施例融合时序信息至合成指标数据,可以有助于提高后续预测准确度。
作为示例,仍然以光模块包括链路对应的第一光模块以及第二光模块,指标数据包括发光功率以及收光功率为例进行说明,针对采样时间点i执行以下处理:对第一光模块以及第二光模块在采样时间点i的4个信道的发光功率以及收光功率进行拼接处理,得到光模块在采样时间点i的拼接指标数据。
具体而言,第一光模块以及第二光模块在采样时间点i的4个信道的发光功率以及收光功率包括以下数据:、/>、/>、/>、/>、/>、/>、/>、/>、/>、/>、/>、/>、/>
代表在/>时刻第一光模块的第1个通道的收光功率,/>代表在/>时刻第一光模块的第2个通道的收光功率,/>代表在/>时刻第一光模块的第3个通道收光功率,/>代表在/>时刻第一光模块的第4个通道收光功率。/>代表在/>时刻第一光模块发射端的第1个通道的发光功率,/>代表在/>时刻第一光模块发射端的第2个通道发光功率,/>代表在/>时刻第一光模块发射端的第3个通道发光功率,代表在/>时刻第一光模块发射端的第4个通道发光功率。/>代表在/>时刻第二光模块接收端的第1个通道收光功率,/>代表在/>时刻第二光模块接收端的第2个通道收光功率,/>代表在/>时刻第二光模块接收端的第3个通道收光功率,/>代表在/>时刻第二光模块接收端的第4个通道收光功率,/>代表在/>时刻第二光模块发射端的第1个通道发光功率,/>代表在/>时刻第二光模块发射端的第2个通道发光功率,/>代表在/>时刻第二光模块发射端的第3个通道发光功率,/>代表在/>时刻第二光模块发射端的第4个通道发光功率。
针对采样时间点i的指标数据进行拼接之后,得到光模块在采样时间点i的拼接指标数据,参见公式(2):
Ai= (2);
其中,矩阵A是将上述16个指标数据进行拼接得到的,最终得到1个16行矩阵。
作为示例,基于多个采样时间点的先后顺序,对光模块在多个采样时间点的拼接指标数据进行排序处理,得到排序结果,即得到从采样时间点1至采样时间点288的排序结果,按照排序结果对光模块在多个采样时间点的拼接指标数据进行拼接处理,得到光模块的合成指标数据,即将对应采样时间点i的拼接指标数据Ai进行拼接处理,得到合成指标数据A,参见公式(3):
(3);
其中,矩阵A大小为,16行以及288列,288代表每个指标对应有288个采样时间点的指标数据,16代表相同采样时间点的16个指标数据。
在步骤103中,对光模块的合成指标数据进行基于残差机制的特征提取处理,得到光模块的合成指标特征。
在一些实施例中,参见图3C,步骤103中对光模块的合成指标数据进行基于残差机制的特征提取处理,得到光模块的合成指标特征,可以通过图3C示出的步骤1031至步骤1033实现。
在步骤1031中,对光模块的合成指标数据进行第一卷积处理,得到第一卷积结果。
在一些实施例中,步骤1031中对光模块的合成指标数据进行第一卷积处理,得到第一卷积结果,可以通过以下技术方案实现:对光模块的合成指标数据进行一维卷积操作,得到一维卷积结果;对一维卷积结果进行归一化处理,得到归一化结果;对归一化结果进行激活处理,得到第一卷积结果。
作为示例,故障预测模型结构包括1个卷积层(包括最大池化)、16个残差网络,1个全连接层(包括全局平均池化),步骤1031的技术方案涉及到1个卷积层的处理。
首先执行卷积操作,输入,经过第1个1D卷积层,输出特征图/>,参见公式(4):
(4);
其中,是特征图(一维卷积结果),/>是矩阵A,K是卷积核,b是偏置项。
经过第1个1D卷积层之后,再执行归一化操作,参见公式(5):
(5);
其中,是归一化后的输出(归一化结果),/>和/>分别为输入/>的均值和标准差,/>是常数项,/>和/>是可学习的参数,/>是一维卷积结果。
在执行归一化操作之后,通过激活函数执行激活处理,参见公式(6):
(6);
其中,是归一化后的输出(归一化结果),ReLU激活函数取/>和0的最大值,再添加非线性变换得到第一卷积结果/>
在步骤1032中,对第一卷积结果进行最大池化处理,得到最大池化结果。
在执行激活处理之后,执行池化操作,将输入划分为若干个矩形区域,输出每个子区域的最大值,参见公式(7):
(7);
其中,是矩形区域内的所有特征值,/>是矩形区域内的最大特征值,/>是矩形区域。
在步骤1033中,对最大池化结果进行多层残差处理,得到光模块的合成指标特征。
在一些实施例中,多层残差处理是通过残差模型实现的,残差模型包括N个级联的残差网络,N是大于或者等于2的整数;步骤1033中对最大池化结果进行多层残差处理,得到光模块的合成指标特征,可以通过以下技术方案实现:通过N个级联的残差网络中第n残差网络,对第n残差网络的输入进行残差处理,并将第n残差网络输出的第n残差结果传输到第n+1残差网络以继续进行残差处理,得到对应第n+1残差网络的第n+1残差结果;将每个残差网络输出的残差结果作为对应光模块的合成指标特征;其中,n为取值从1开始递增的整数变量,n的取值不小于1且小于N,当n取值为1时,第n残差网络的输入为最大池化结果,当n取值不小于2且小于N时,第n残差网络的输入为第n-1残差网络输出的第n-1残差结果。通过本申请实施例可以通过级联的方式来逐步挖掘出隐层特征,从而提高特征表达能力。
作为示例,以N取值为3进行举例说明,通过3个级联的残差网络中第1残差网络,对第1残差网络的输入进行残差处理,并将第1残差网络输出的第1残差结果传输到第2残差网络以继续进行残差处理,得到对应第2残差网络的第2残差结果;通过第2残差网络,对第2残差网络的输入进行残差处理,并将第2残差网络输出的第2残差结果传输到第3残差网络以继续进行残差处理,得到对应第3残差网络的第3残差结果,将第3残差网络输出的残差结果作为光模块的合成指标特征。
在一些实施例中,上述通过N个级联的残差网络中第n残差网络,对第n残差网络的输入进行残差处理,可以通过以下技术方案实现:通过第n残差网络对第n残差网络的输入进行第二卷积处理,得到对应第n残差网络的第二卷积结果;对对应第n残差网络的第二卷积结果与第n残差网络的输入进行求和处理,得到第n残差网络输出的第n残差结果。
作为示例,参见图8,在执行池化操作之后,第n残差网络的处理可以参见公式(8):
(8);
其中,是对应第n残差网络的第二卷积结果(对应图8所示的f(x)),/>是第n残差网络的输入,/>是第n残差网络输出的第n残差结果(对应图8所示的f(x)+x),将残差网络的初始输出/>和残差块的输入/>(对应图8所示的x)相加作为残差块的最终输出,缓解随着神经网络的层数变深梯度消失问题。
在步骤104中,对光模块的合成指标特征进行概率映射处理,得到光模块所处链路的未来故障概率。
在一些实施例中,步骤104对光模块的合成指标特征进行概率映射处理,得到光模块所处链路的未来故障概率,可以通过以下技术方案实现:对光模块的合成指标特征进行全连接处理,得到全连接结果;对全连接结果进行最大似然处理,得到光模块所处链路的未来故障概率。
作为示例,通过全连接层执行概率映射处理,在经过残差网络操作后,将残差网络最终输出的特征图输入至全连接层进行分类,参见公式(9):
(9);
其中,是权重矩阵,b是偏置项,/>是合成指标特征的平均池化结果,/>是对应正常类别的全连接层输出以及对应故障类别的全连接层输出。
最后利用Softmax函数将全连接层的输出转化为概率分布,参见公式(10):
(10);/>
其中,是光模块所处链路属于正常类别的概率或者光模块所处链路属于故障类别的概率,/>是对应正常类别的全连接层输出以及对应故障类别的全连接层输出。
在一些实施例中,基于残差机制的特征提取处理以及概率映射处理是通过调用故障预测模型实现的,在执行步骤103之前,还可以执行图3D示出的步骤105至步骤108。
在步骤105中,获取样本时间序列,其中,样本时间序列包括多个样本采样时间点。
在步骤106中,获取样本光模块的多个信道在多个样本采样时间点的指标数据,并对样本光模块的多个信道在多个样本采样时间点的指标数据进行基于时序机制的合成处理,得到样本光模块的样本合成指标数据。
在步骤107中,通过故障预测模型实现以下处理:对样本光模块的样本合成指标数据进行基于残差机制的特征提取处理,得到样本光模块的样本合成指标特征;对样本光模块的样本合成指标特征进行概率映射处理,得到样本光模块所处链路的未来故障概率。
在步骤108中,基于样本光模块所处链路的未来故障概率与样本光模块所处链路的真实故障概率之间的差异,确定损失,并基于损失更新故障预测模型。
作为示例,在半年的工单系统中,共发生3106次链路告警,对故障时刻前1周至前3周的时序数据进行采样生成正样本(亚健康样本),对故障链路线下处理结束后的2周时序数据进行采样生成负样本(健康样本),生成数据集A,按7:2:1的方式划分训练集、测试集、验证集。通过Xavier方法进行参数初始化处理,通过AdamW优化器进行参数优化,学习率设置为,正则化系数为L2,数据批大小为64。训练时采取的损失函数是二进制交叉熵函数,参见公式(11):
(11);
其中,是损失函数,y代表故障预测模型输出的类别(0/1),p是一个介于0到1之间的概率,表示属于类别1的概率,类别1是故障类别,类别0是正常类别。
通过本申请实施例获取光模块的多个信道在多个采样时间点的指标数据,并对光模块的多个信道在多个采样时间点的指标数据进行基于时序机制的合成处理,得到光模块的合成指标数据,从而可以对多个通道的指标数据进行感知,并且基于时序机制进行融合,可以考虑到时序信息,最终可以有助于提高故障预测准确度,对光模块的合成指标数据进行基于残差机制的特征提取处理,得到光模块的合成指标特征,对光模块的合成指标特征进行概率映射处理,得到光模块所处链路的未来故障概率,通过残差机制可以提高在概率映射处理所得到的故障预测准确度。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
在一些实施例中,终端接收到针对任一链路的故障预测请求,并将故障预测请求发送到服务器,服务器获取目标时间序列,其中,目标时间序列包括多个采样时间点;获取光模块的多个信道在多个采样时间点的指标数据,并对光模块的多个信道在多个采样时间点的指标数据进行基于时序机制的合成处理,得到光模块的合成指标数据;对光模块的合成指标数据进行基于残差机制的特征提取处理,得到光模块的合成指标特征;对光模块的合成指标特征进行概率映射处理,得到光模块所处链路的未来故障概率。当未来故障概率大于故障概率阈值时,服务器预测该链路未来会发生故障,服务器将未来故障概率以及预测该链路未来会发生故障的预测结果返回至终端进行显示。
在一些实施例中,参见图4,一个光模块插在一台交换机的一个端口上,链路A(交换机a的端口1与交换机b的端口1所构成的链路)两端各有一个光模块。交换机的SNMP采集系统实时收集端口上的光模块的工作温度、工作电压、工作电流、发射功率、接收功率,共5个连续性指标,企业数据中心约有百万级别的光模块数量,每天的原始数据约有200亿。
参见图5,基于SNMP采集系统采集光模块如下指标:收光功率、发光功率,预测全网每条链路是否将在1个月内出现端口震荡、端口错包等显性故障,并以可视化方式显示故障等级、告警原因,以及具体网络设备和端口等信息,通知相应人员进行线下问题排查,防止故障发生。当算法预测某条链路即将产生故障,则产生该链路的故障预测告警,例如交换机a的端口1与交换机b的端口1所在的链路产生链路故障预测告警,网络工单系统接收到此预警,线下进行链路的检查,从而方便提前进行人工干预,当样本数量增加时,可以在收光功率、发光功率的基础上,也采集工作温度、工作电压、工作电流。
在一些实施例中,参见图6,基于光模块的故障预测流程包括:数据预处理、模型训练和调优、模型验证和现网部署。
下面首先介绍数据预处理的具体流程。
参见图7,光模块由信号发送端和信号接收端构成。以光模块A将信号传输至光模块B为例,光模块A将输入的电信号转化为光信号,由光信号发送端发送,在光纤中传输。光模块B的光信号接收端接收到光信号后,将光信号转换成电信号,光模块B将信号传输至光模块A的过程同理。
发光功率指标记录着光模块发送端的光信号强度,收光功率指标记录着光模块接收端的光信号强度,单位是毫瓦分贝(dBm),针对某个链路A,可通过光模块A的发射器、光模块A的接收器、光模块B的发射器、光模块B的接收器所采集的指标记录链路的健康状况、信号的质量和系统的性能。指标数目总计为16个,分别是光模块A的发射器在四个信道的发光功率,光模块A的接收器在四个信道的收光功率,光模块B的接收器在四个信道的收光功率/>,光模块B的发射器在四个信道的收光功率/>
将链路A在一天内基于SNMP系统采集的全量数据,定义为数据集,将清洗后的数据集定义为/>
一天内包括1440分钟,按5分钟的采集粒度来采集数据,可以得到288个数值点,采样时间点标识集合。光模块发射端有4个通道,每个通道记录着各自的发光功率,共4个指标:/>。光模块接收端也有4个通道,每个通道记录着各自的发光功率,共4个指标:/>。指标维度集合J的表示参见公式(12):
(12);
其中,代表链路光模块A发射器第1个通道的收光功率,/>代表光模块接收器第1个通道的收光功率,/>代表链路光模块B发射器第1个通道的收光功率,/>代表光模块接收器第1个通道的收光功率。/>代表链路光模块A发射器第2个通道的收光功率,/>代表光模块接收器第2个通道的收光功率,/>代表链路光模块B发射器第2个通道的收光功率,/>代表光模块接收器第2个通道的收光功率。/>代表链路光模块A发射器第3个通道的收光功率,/>代表光模块接收器第3个通道的收光功率,/>代表链路光模块B发射器第3个通道的收光功率,/>代表光模块接收器第3个通道的收光功率。/>代表链路光模块A发射器第4个通道的收光功率,/>代表光模块接收器第4个通道的收光功率,/>代表链路光模块B发射器第4个通道的收光功率,/>代表光模块接收器第4个通道的收光功率。
全量数据集,这里K表示通道集合,/>,/>代表一天中第i个采样时间点,/>代表在第i个采样时间点光模块A接收端的第k个通道收光功率,/>代表在/>时刻光模块A发射端的第k个通道发光功率。/>代表在/>时刻光模块B接收端的第k个通道收光功率,代表在/>时刻光模块B发射端的第k个通道发光功率。对于集合D的每个指标/>(指标对应一个通道以及一个指标类型),集合D中元素可描述为/>,这里的/>即为上述16个指标构成的指标集合,/>是第i个时间的指标数据。/>
首先进行数据清洗处理,去除集合D的空值,此处确保均为非空值,接着处理异常值,此处确保/>均在正常取值区间内,/>和/>分别代表第j个指标的下限和上限取值,即/>。去除空值以及异常值之后的集合,这里的“and”表示且逻辑关系,/>表示/>均为非空值,/>表示均在正常取值区间内,/>代表一天中第i个时间,J是指标集合,/>是第i个时间的对应指标集合的指标数据,经过去除空值和异常值的处理之后再去除重复值,此处确保/>中无重复取值。
数据清洗处理之后再进行行列变换处理,在通过Spark处理海量数据时,将行式数据转换为列式数据可以实现数据压缩,显著提升计算性能。具体而言,提前将某个光模块的288行数据聚合为一行288列,将极大地提升运行效率。对于集合的每个元素/>变换成集合/>,这里I是采样时间点集合,J是指标集合,/>是第i个时间的对应指标集合J的指标数据,行列变换的方法定义为,这里/>代表第i个采样时间点对应的时刻,/>是第i个采样时间点的对应指标集合J的指标数据,是对应指标j的288列(分别对应288个采样时间点)指标数据。
行列变换处理之后进行数据标准化处理,数据标准化定义为,参见公式(13)以及公式(14):
(13);
(14);
其中,是经过标准化之后在i时刻的指标数据,/>是标准化之前在i时刻的指标数据,/>是对应指标j的所有时刻的指标数据中最小指标数据,/>是对应指标j的所有时刻的指标数据中最大指标数据,i是时刻,I是采样时间点集合,j是指标维度,J是指标维度集合。
下面介绍模型训练和优化,首先进行数据适配,针对上述得到的每个指标数据,将所有指标数据合成矩阵/>,作为故障预测模型的输入。矩阵A具体参见公式(15):
(15);
其中,矩阵A大小为,16行以及288列,16代表16个指标,288代表每个指标对应有288个采样时间点的指标数据。
下面介绍故障预测模型结构,故障预测模型结构如表1所示,共包括1个卷积层(包括最大池化)、4个残差块(每个残差块有4层),1个全连接层(包括全局平均池化),共18层。
表1 故障预测模型结构
参见图8,故障预测模型的核心是残差块(Residual Block),每个残差块包含2个卷积层和1个跳跃连接层。
故障预测模型的输入可定义为为指标的个数16,W为每个指标的取值个数288,1代表1维通道。首先执行卷积操作,输入/>,经过第1个1D卷积层,输出特征图/>,参见公式(16):
(16);
其中,是特征图,/>是矩阵A,K是卷积核,b是偏置项。
经过第1个1D卷积层之后,再执行归一化操作,参见公式(17):
(17);
其中,是标准化后的输出,/>和/>分别为输入/>的均值和标准差,/>是常数项,/>和/>是可学习的参数。
在执行归一化操作之后,通过激活函数执行激活处理,参见公式(18):
(18);
其中,ReLU激活函数取和0的最大值,再添加非线性变换得到/>
在执行激活处理之后,执行池化操作,将输入划分为若干个矩形区域,输出每个子区域的最大值,参见公式(19):
(19);
其中,是矩形区域内的所有特征值,/>是矩形区域内的最大特征值。
参见图8,在执行池化操作之后,通过残差块进行数据处理,参见公式(20):
(20);
其中,将残差块的输出(对应图8所示的f(x))和残差块的输入/>(对应图8所示的x)相加作为残差块的最终输出,/>是最终输出(对应图8所示的f(x)+x),缓解随着神经网络的层数变深梯度消失问题。
最后通过全连接层执行概率映射处理,在经过残差块操作后,将残差块最终输出的特征图输入至全连接层进行分类,参见公式(21):
(21);
其中,是权重矩阵,b是偏置项,/>是平均池化结果,/>是对应正常类别的全连接层输出,或者是对应故障类别的全连接层输出。
最后利用Softmax函数将全连接层的输出转化为概率分布,参见公式(22):
(22);
其中,是正常类别/故障类别的概率,/>是正常类别/故障类别全连接层的输出。
通过多个残差块的叠加、池化操作、全连接操作,故障预测模型将特征图分类成健康类别或者亚健康类别。
下面介绍模型训练和模型调优
首先生成数据集,例如,在半年的工单系统中,共发生3106次链路告警,对故障时刻前1周至前3周的时序数据进行采样生成正样本(亚健康样本),对故障链路线下处理结束后的2周时序数据进行采样生成负样本(健康样本),生成数据集A,按7:2:1的方式划分训练集、测试集、验证集。
通过Xavier方法进行参数初始化处理,通过AdamW优化器进行参数优化,学习率设置为,正则化系数为L2,数据批大小为64。训练时采取的损失函数是二进制交叉熵函数,参见公式(23):
(23);
其中,是损失函数,y代表故障预测模型输出的类别(0/1),p是一个介于0到1之间的概率,表示属于类别1的概率。
下面介绍模型验证和模型部署。
故障预测模型在训练数据集训练5个周期,在每个周期结束后,用验证集对故障预测模型进行评估,评估需要计算损失函数、计算性能指标准确率、召回率和F1得分(统计学中用来衡量二分类模型精确度的一种指标)。为了防止过拟合,在验证集上的性能没有明显提升时,提前终止训练。将训练得到的故障预测模型保存成文件,选择深度学习部署平台进行生产环境的部署。部署完成后,关注模型的性能和资源使用情况,定期更新模型以确保模型的优良表现。
参见图9,图9示出某条链路采集的指标数据,该链路在一周内出现了显性故障,图9所示的16张图分别代表16个指标在时序上的指标数据。相关技术的基于单指标的故障预测模型,输入数据的尺寸是,输出正常或者异常的分类结果,此时故障预测模型针对该链路的判断结果为健康,最终验证为模型判别错误。参见图10,使用本申请实施例提出的基于故障预测模型的光模块故障预测算法,较好地融合了多个指标的信息,输入数据的尺寸是/>,输出正常或者异常的分类结果,本申请实施例提供的模型针对该链路的判断结果为亚健康。最终验证为模型判别有效。
下面继续说明本申请实施例提供的故障预测装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的故障预测装置255中的软件模块可以包括:获取模块2551,用于获取目标时间序列,其中,目标时间序列包括多个采样时间点;合并模块2552,用于获取光模块的多个信道在多个采样时间点的指标数据,并对光模块的多个信道在多个采样时间点的指标数据进行基于时序机制的合成处理,得到光模块的合成指标数据;残差模块2553,用于对光模块的合成指标数据进行基于残差机制的特征提取处理,得到光模块的合成指标特征;预测模块2554,用于对光模块的合成指标特征进行概率映射处理,得到光模块所处链路的未来故障概率。
在一些实施例中,获取模块2551,还用于:针对每个采样时间点执行以下处理:获取光模块的每个信道在采样时间点的原始指标数据;对光模块的每个信道在采样时间点的原始指标数据进行数据清洗处理,得到光模块的每个信道在采样时间点的清洗指标数据;对光模块的每个信道在采样时间点的清洗指标数据进行数据压缩处理,得到光模块的每个信道在采样时间点的压缩指标数据;对光模块的每个信道在采样时间点的压缩指标数据进行标准化处理,得到光模块的每个信道在采样时间点的指标数据;将光模块的多个信道在多个采样时间点的指标数据组成光模块的多个信道在多个采样时间点的指标数据。
在一些实施例中,获取模块2551,还用于:获取光模块的每个信道在采样时间点的收光功率指标与发光功率指标;将光模块的多个信道在采样时间点的多个信道在采样时间点的收光功率指标与发光功率指标组成光模块在采样时间点的原始指标数据。
在一些实施例中,光模块在采样时间点的原始指标数据包括光模块的每个信道在采样时间点的原始指标数据;获取模块2551,还用于:将光模块的每个信道在采样时间点的原始指标数据中属于空值以及异常值的原始指标数据去除,得到保留的每个所述信道的原始指标数据;对保留的每个所述信道的原始指标数据中在每个信道的原始指标数据进行重复过滤处理,得到光模块的每个信道在采样时间点的清洗指标数据。
在一些实施例中,光模块的每个信道在采样时间点的压缩指标数据包括光模块的每个信道在采样时间点的压缩指标数据;获取模块2551,还用于:针对每个信道的压缩指标数据执行以下处理:获取光模块在多个采样时间点的信道的压缩指标数据中最大压缩指标数据以及最小压缩指标数据;获取最大压缩指标数据与最小压缩指标数据之间的第一差值;获取光模块的信道在采样时间点的压缩指标数据与最小压缩指标数据之间的第二差值;将第二差值与第一差值之间的比值作为光模块的信道在采样时间点的指标数据;将采样时间点在多个信道的标准化指标数据组成光模块的每个信道在采样时间点的指标数据。
在一些实施例中,合并模块2552,还用于:针对每个采样时间点执行以下处理:对光模块的多个信道在采样时间点的多个信道在采样时间点的指标数据进行拼接处理,得到光模块在采样时间点的拼接指标数据;基于多个采样时间点的先后顺序,对光模块在多个采样时间点的拼接指标数据进行排序处理,得到排序结果;基于排序结果对光模块在多个采样时间点的拼接指标数据进行拼接处理,得到光模块的合成指标数据。
在一些实施例中,残差模块2553,还用于:对光模块的合成指标数据进行第一卷积处理,得到第一卷积结果;对第一卷积结果进行最大池化处理,得到最大池化结果;对最大池化结果进行多层残差处理,得到光模块的合成指标特征。
在一些实施例中,残差模块2553,还用于:对光模块的合成指标数据进行一维卷积操作,得到一维卷积结果;对一维卷积结果进行归一化处理,得到归一化结果;对归一化结果进行激活处理,得到第一卷积结果。
在一些实施例中,多层残差处理是通过残差模型实现的,残差模型包括N个级联的残差网络,N是大于或者等于2的整数;残差模块2553,还用于:通过N个级联的残差网络中第n残差网络,对第n残差网络的输入进行残差处理,并将第n残差网络输出的第n残差结果传输到第n+1残差网络以继续进行残差处理,得到对应第n+1残差网络的第n+1残差结果;将每个残差网络输出的残差结果作为对应光模块的合成指标特征;其中,n为取值从1开始递增的整数变量,n的取值不小于1且小于N,当n取值为1时,第n残差网络的输入为最大池化结果,当n取值不小于2且小于N时,第n残差网络的输入为第n-1残差网络输出的第n-1残差结果。
在一些实施例中,残差模块2553,还用于:通过第n残差网络对第n残差网络的输入进行第二卷积处理,得到对应第n残差网络的第二卷积结果;对对应第n残差网络的第二卷积结果与第n残差网络的输入进行求和处理,得到第n残差网络输出的第n残差结果。
在一些实施例中,预测模块2554,还用于:对光模块的合成指标特征进行全连接处理,得到全连接结果;对全连接结果进行最大似然处理,得到光模块所处链路的未来故障概率。
在一些实施例中,基于残差机制的特征提取处理以及概率映射处理是通过调用故障预测模型实现的,装置还包括:训练模块2555,用于:获取样本时间序列,其中,样本时间序列包括多个样本采样时间点;获取样本光模块的多个信道在多个样本采样时间点的指标数据,并对样本光模块的多个信道在多个样本采样时间点的指标数据进行基于时序机制的合成处理,得到样本光模块的样本合成指标数据;通过故障预测模型实现以下处理:对样本光模块的样本合成指标数据进行基于残差机制的特征提取处理,得到样本光模块的样本合成指标特征;对样本光模块的样本合成指标特征进行概率映射处理,得到样本光模块所处链路的未来故障概率;基于样本光模块所处链路的未来故障概率与样本光模块所处链路的真实故障概率之间的差异,确定损失,并基于损失更新故障预测模型。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机可执行指令,该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的故障预测方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的故障预测方法,例如,如图3A-图3D示出的故障预测方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块或脚本的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序的文件)中。
作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上,通过本申请实施例获取光模块的多个信道在多个采样时间点的指标数据,并对光模块的多个信道在多个采样时间点的指标数据进行基于时序机制的合成处理,得到光模块的合成指标数据,从而可以对多个通道的指标数据进行感知,并且基于时序机制进行融合,可以考虑到时序信息,最终可以有助于提高故障预测准确度,对光模块的合成指标数据进行基于残差机制的特征提取处理,得到光模块的合成指标特征,对光模块的合成指标特征进行概率映射处理,得到光模块所处链路的未来故障概率,通过残差机制可以提高在概率映射处理所得到的故障预测准确度。
以上,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种故障预测方法,其特征在于,所述方法包括:
获取目标时间序列,其中,所述目标时间序列包括多个采样时间点;
针对每个所述采样时间点,获取链路对应的第一光模块的多个信道在所述采样时间点的收光功率指标与发光功率指标,并获取所述链路对应的第二光模块的多个信道在所述采样时间点的收光功率指标与发光功率指标;
针对每个所述采样时间点,将所述第一光模块的多个所述信道在所述采样时间点的收光功率指标与发光功率指标、所述第二光模块的多个所述信道在所述采样时间点的收光功率指标与发光功率指标组成光模块在所述采样时间点的原始指标数据;
基于所述光模块在所述多个采样时间点的原始指标数据,获取所述光模块的多个信道在所述多个采样时间点的指标数据,并对所述光模块的多个信道在所述多个采样时间点的指标数据进行基于时序机制的合成处理,得到所述光模块的合成指标数据;
对所述光模块的合成指标数据进行基于残差机制的特征提取处理,得到所述光模块的合成指标特征;
对所述光模块的合成指标特征进行概率映射处理,得到所述链路的未来故障概率。
2.根据权利要求1所述的方法,其特征在于,所述基于所述光模块在所述多个采样时间点的原始指标数据,获取所述光模块的多个信道在所述多个采样时间点的指标数据,包括:
针对每个所述采样时间点执行以下处理:
对所述光模块的每个所述信道在所述采样时间点的原始指标数据进行数据清洗处理,得到所述光模块的每个所述信道在所述采样时间点的清洗指标数据;
对所述光模块的每个所述信道在所述采样时间点的清洗指标数据进行数据压缩处理,得到所述光模块的每个所述信道在所述采样时间点的压缩指标数据;
对所述光模块的每个所述信道在所述采样时间点的压缩指标数据进行标准化处理,得到所述光模块的每个所述信道在所述采样时间点的指标数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述光模块的每个所述信道在所述采样时间点的原始指标数据进行数据清洗处理,得到所述光模块的每个所述信道在所述采样时间点的清洗指标数据,包括:
将所述光模块的每个所述信道在所述采样时间点的原始指标数据中属于空值以及异常值的原始指标数据去除,得到保留的每个所述信道的原始指标数据;
对所述保留的每个所述信道的原始指标数据进行重复过滤处理,得到所述光模块的每个所述信道在所述采样时间点的清洗指标数据。
4.根据权利要求2所述的方法,其特征在于,所述光模块的每个所述信道在所述采样时间点的压缩指标数据包括所述光模块的每个所述信道在所述采样时间点对应每个指标维度的压缩指标数据;
所述对所述光模块的每个所述信道在所述采样时间点的压缩指标数据进行标准化处理,得到所述光模块的每个所述信道在所述采样时间点的指标数据,包括:
针对每个所述信道执行以下处理:
对所述光模块的所述信道在所述采样时间点对应每个所述指标维度的压缩指标数据进行标准化处理,得到所述光模块的所述信道在所述采样时间点对应每个所述指标维度的指标数据;
将所述光模块的所述信道在所述采样时间点对应多个指标维度的指标数据,组成所述光模块的所述信道在所述采样时间点的指标数据。
5.根据权利要求4所述的方法,其特征在于,所述对所述光模块的所述信道在所述采样时间点对应每个所述指标维度的压缩指标数据进行标准化处理,得到所述光模块的所述信道在所述采样时间点对应每个所述指标维度的指标数据,包括:
针对每个所述指标维度执行以下处理:
获取所述光模块的所述信道在多个所述采样时间点对应所述指标维度的压缩指标数据中最大压缩指标数据以及最小压缩指标数据;
获取所述最大压缩指标数据与所述最小压缩指标数据之间的第一差值;
获取所述光模块的所述信道在所述采样时间点的压缩指标数据与所述最小压缩指标数据之间的第二差值;
将所述第二差值与所述第一差值之间的比值作为所述光模块的所述信道在所述采样时间点对应所述指标维度的指标数据。
6.根据权利要求1所述的方法,其特征在于,所述对所述光模块的多个信道在所述多个采样时间点的指标数据进行基于时序机制的合成处理,得到所述光模块的合成指标数据,包括:
针对每个所述采样时间点执行以下处理:对所述光模块的多个所述信道在所述采样时间点的指标数据进行拼接处理,得到所述光模块在所述采样时间点的拼接指标数据;
基于所述多个采样时间点的先后顺序,对所述光模块在多个所述采样时间点的拼接指标数据进行排序处理,得到排序结果;
基于所述排序结果对所述光模块在多个所述采样时间点的拼接指标数据进行拼接处理,得到所述光模块的合成指标数据。
7.根据权利要求1所述的方法,其特征在于,所述对所述光模块的合成指标数据进行基于残差机制的特征提取处理,得到所述光模块的合成指标特征,包括:
对所述光模块的合成指标数据进行第一卷积处理,得到第一卷积结果;
对所述第一卷积结果进行最大池化处理,得到最大池化结果;
对所述最大池化结果进行多层残差处理,得到所述光模块的合成指标特征。
8.根据权利要求7所述的方法,其特征在于,所述对所述光模块的合成指标数据进行第一卷积处理,得到第一卷积结果,包括:
对所述光模块的合成指标数据进行一维卷积操作,得到一维卷积结果;
对所述一维卷积结果进行归一化处理,得到归一化结果;
对所述归一化结果进行激活处理,得到所述第一卷积结果。
9.根据权利要求7所述的方法,其特征在于,所述多层残差处理是通过残差模型实现的,所述残差模型包括N个级联的残差网络,N是大于或者等于2的整数;
所述对所述最大池化结果进行多层残差处理,得到所述光模块的合成指标特征,包括:
通过N个级联的残差网络中第n残差网络,对所述第n残差网络的输入进行残差处理,并将所述第n残差网络输出的第n残差结果传输到第n+1残差网络以继续进行残差处理,得到对应所述第n+1残差网络的第n+1残差结果;
将第N残差网络输出的残差结果作为所述光模块的合成指标特征;
其中,n为取值从1开始递增的整数变量,n的取值不小于1且小于N,当n取值为1时,所述第n残差网络的输入为所述最大池化结果,当n取值不小于2且小于N时,所述第n残差网络的输入为第n-1残差网络输出的第n-1残差结果。
10.根据权利要求9所述的方法,其特征在于,所述通过N个级联的残差网络中第n残差网络,对所述第n残差网络的输入进行残差处理,包括:
通过所述第n残差网络对所述第n残差网络的输入进行第二卷积处理,得到对应所述第n残差网络的第二卷积结果;
对对应所述第n残差网络的第二卷积结果与所述第n残差网络的输入进行求和处理,得到所述第n残差网络输出的第n残差结果。
11.根据权利要求1所述的方法,其特征在于,所述对所述光模块的合成指标特征进行概率映射处理,得到所述光模块所处链路的未来故障概率,包括:
对所述光模块的合成指标特征进行全连接处理,得到全连接结果;
对所述全连接结果进行最大似然处理,得到所述光模块所处链路的未来故障概率。
12.根据权利要求1至11中任一项所述的方法,其特征在于,所述基于残差机制的特征提取处理以及所述概率映射处理是通过调用故障预测模型实现的,所述方法还包括:
获取样本时间序列,其中,所述样本时间序列包括多个样本采样时间点;
获取样本光模块的多个所述信道在所述多个样本采样时间点的指标数据,并对所述样本光模块的多个所述信道在所述多个样本采样时间点的指标数据进行基于时序机制的合成处理,得到所述样本光模块的样本合成指标数据;
通过所述故障预测模型实现以下处理:
对所述样本光模块的样本合成指标数据进行基于残差机制的特征提取处理,得到所述样本光模块的样本合成指标特征;
对所述样本光模块的样本合成指标特征进行概率映射处理,得到所述样本光模块所处链路的未来故障概率;
基于所述样本光模块所处链路的未来故障概率与所述样本光模块所处链路的真实故障概率之间的差异,确定损失,并基于所述损失更新所述故障预测模型。
13.一种故障预测装置,其特征在于,所述装置包括:
获取模块,用于获取目标时间序列,其中,所述目标时间序列包括多个采样时间点;
合并模块,用于针对每个所述采样点,获取第一光模块的多个信道在所述采样时间点的收光功率指标与发光功率指标,并获取第二光模块的多个信道在所述采样时间点的收光功率指标与发光功率指标;针对每个所述采样点,将所述第一光模块的多个所述信道在所述采样时间点的收光功率指标与发光功率指标、所述第二光模块的多个所述信道在所述采样时间点的收光功率指标与发光功率指标组成光模块在所述采样时间点的原始指标数据;基于所述光模块在所述多个采样时间点的原始指标数据获取所述光模块的多个信道在所述多个采样时间点的指标数据,并对所述光模块的多个信道在所述多个采样时间点的指标数据进行基于时序机制的合成处理,得到所述光模块的合成指标数据;
残差模块,用于对所述光模块的合成指标数据进行基于残差机制的特征提取处理,得到所述光模块的合成指标特征;
预测模块,用于对所述光模块的合成指标特征进行概率映射处理,得到所述光模块所处链路的未来故障概率。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至12任一项所述的故障预测方法。
15.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至12任一项所述的故障预测方法。
CN202311242318.6A 2023-09-25 2023-09-25 故障预测方法、装置、电子设备、存储介质及程序产品 Active CN117081666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311242318.6A CN117081666B (zh) 2023-09-25 2023-09-25 故障预测方法、装置、电子设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311242318.6A CN117081666B (zh) 2023-09-25 2023-09-25 故障预测方法、装置、电子设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN117081666A CN117081666A (zh) 2023-11-17
CN117081666B true CN117081666B (zh) 2024-01-09

Family

ID=88706210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311242318.6A Active CN117081666B (zh) 2023-09-25 2023-09-25 故障预测方法、装置、电子设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN117081666B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10396897B1 (en) * 2018-04-17 2019-08-27 General Electric Company Systems and methods for predicting defects in optical transceiver devices
CN114266294A (zh) * 2021-12-08 2022-04-01 中国联合网络通信集团有限公司 分类模型的训练方法、目标链路的故障分析方法及装置
CN114448504A (zh) * 2021-12-15 2022-05-06 新浪网技术(中国)有限公司 光模块故障处理方法及电子设备、计算机可读存储介质
CN116127383A (zh) * 2022-10-18 2023-05-16 南京上铁电子工程有限公司 故障检测方法、装置、电子设备及存储介质
CN116318386A (zh) * 2021-12-15 2023-06-23 中兴通讯股份有限公司 光模块的失效预测方法及其系统、存储介质
CN116306806A (zh) * 2023-02-02 2023-06-23 国网北京市电力公司 故障诊断模型确定方法、装置及非易失性存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10396897B1 (en) * 2018-04-17 2019-08-27 General Electric Company Systems and methods for predicting defects in optical transceiver devices
CN114266294A (zh) * 2021-12-08 2022-04-01 中国联合网络通信集团有限公司 分类模型的训练方法、目标链路的故障分析方法及装置
CN114448504A (zh) * 2021-12-15 2022-05-06 新浪网技术(中国)有限公司 光模块故障处理方法及电子设备、计算机可读存储介质
CN116318386A (zh) * 2021-12-15 2023-06-23 中兴通讯股份有限公司 光模块的失效预测方法及其系统、存储介质
CN116127383A (zh) * 2022-10-18 2023-05-16 南京上铁电子工程有限公司 故障检测方法、装置、电子设备及存储介质
CN116306806A (zh) * 2023-02-02 2023-06-23 国网北京市电力公司 故障诊断模型确定方法、装置及非易失性存储介质

Also Published As

Publication number Publication date
CN117081666A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN111177095B (zh) 日志分析方法、装置、计算机设备及存储介质
CN111092852B (zh) 基于大数据的网络安全监控方法、装置、设备及存储介质
US11595415B2 (en) Root cause analysis in multivariate unsupervised anomaly detection
CN109684370A (zh) 日志数据处理方法、系统、设备及存储介质
Yen et al. A framework for IoT-based monitoring and diagnosis of manufacturing systems
CN111241154A (zh) 一种基于大数据的蓄电池故障预警方法及系统
CN111309539A (zh) 一种异常监测方法、装置和电子设备
CN113779272A (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN108108445A (zh) 一种智能数据处理方法和系统
CN112181960A (zh) 一种基于AIOps的智能运维框架系统
US20190197432A9 (en) Automated meta parameter search for invariant based anomaly detectors in log analytics
Bielefeld Online performance anomaly detection for large-scale software systems
Behera et al. Root Cause Analysis Bot using Machine Learning Techniques
CN117081666B (zh) 故障预测方法、装置、电子设备、存储介质及程序产品
CN117310500A (zh) 电池状态分类模型构建方法及电池状态分类方法
CN112699048B (zh) 基于人工智能的程序故障处理方法、装置、设备及存储介质
CN114297453B (zh) 告警预测方法、装置、电子设备及存储介质
CN114818353A (zh) 一种基于故障特征关系图谱的列控车载设备故障预测方法
CN117014069B (zh) 故障预测方法、装置、电子设备、存储介质及程序产品
CN114139706A (zh) 储能资源的评价系统
Roshak Artificial Intelligence for IoT Cookbook: Over 70 recipes for building AI solutions for smart homes, industrial IoT, and smart cities
CN113010339A (zh) 联机交易测试中故障自动处理方法及装置
CN113407428B (zh) 人工智能系统的可靠性评估方法、装置和计算机设备
EP3896905A1 (en) Sleeping cell detection
CN114281311A (zh) 一种模型开发系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant