一种光模块故障诊断系统及方法
技术领域
本发明涉及波分设备领域,具体涉及一种光模块故障诊断系统及方法。
背景技术
随着用户对光模块链路需求的快速增长,云计算、移动宽带和IPTV用户对带宽的要求也日益提高。近年来,100G及以上光模块在数据中心市场上快速发展,逐渐取代现有的40G链路。
但在实际应用中,100G及以上速率的光模块的故障诊断及分析由于存在以下困难,难以解决实际应用中的相关问题:
1、100G及以上速率的光模块内部空间紧张,再加上功耗限制,导致光模块存储空间受限,缺乏可以反复进行写入的存储设备,这极大影响运行时光模块的数据收集,由于没有足够的数据对故障进行分析,因此无法有效完成故障诊断;
2、由于100G及以上速率的光模块对外硬件接口的限制(对外仅有MDIO通信接口),导致光模块离开实验室调测环境后,无法对光模块的内部运行状态进行有效监测。虽然外部设备可以按照标准MSA协议《CFP MSA Management Interface Specification Version2.0r09》获取100G及以上速率的光模块的告警性能等信息,但是这些信息均为通用信息,且信息量有限,无法充分反馈光模块内部各组件的运行状态,更加无法针对不同的硬件软件构架上报不同的定制化内容;
3、通过MSA协议采集的内容大部分是当前实时的信息,无法对曾经发生的信息进行查询,导致某些持续时间较短的故障,一旦故障现象消失后,就没有任何手段对故障时的状态进行查询;
4、缺乏对100G及以上速率的光模块的远程故障定位手段,目前的故障定位需要调试人员在工程现场进行信息查询,有的时候甚至需要将光模块从100G及以上速率的波分设备上取下,放到调测平台上才能查询并定位故障,极大的影响了工作效率。
因此,目前迫切需求一种可在100G及以上速率的光模块中实现故障记录及诊断功能的装置及方法,实现光模块运行状态监控、故障信息记录、掉电保存和历史信息查询等功能。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种光模块故障诊断系统及方法,可将日志通过以太网上传到配合100G及以上速率的波分设备使用的网管系统上进行存储、分析,最终完成故障定位,实现了光模块内部器件、封装空间、功耗等严格受限的情况下的故障诊断功能。
为达到以上目的,本发明采取的技术方案是:
一种光模块故障诊断系统,包括:
日志收集模块,用于收集光模块光电信号转化过程中的日志信息;
日志转发模块,用于存储所述日志信息、转发所述日志信息至光模块串口,以及对所述日志信息进行切包处理后传输至外部设备;
日志提取模块,用于提取切包处理后的日志信息并到网管系统进行故障诊断。
在上述技术方案的基础上,所述日志转发模块包括:
通用打印日志模块,用于接收日志收集模块收集到的日志信息,以及将所述日志信息进行切包处理;SHELL输出模块,用于将通用打印日志模块接收的所述日志信息输出至光模块串口,供光模块调测平台对光模块输出进行监测和控制;存储设备,用于记录通用打印日志模块接收的所述日志信息;MSA寄存器,用于接收所述通用打印日志模块切包处理后的日志信息,并传输至外部设备。
在上述技术方案的基础上,所述日志提取模块包括:
获取模块,用于监控MSA寄存器,提取发现的日志数据帧,进行解帧、分类和重新组包后,恢复出可读的光模块日志信息;
输出模块,用于接收获取模块恢复的光模块日志信息,并将其上报至网管系统进行存储和分析。
在上述技术方案的基础上,所述日志收集模块收集的日志信息包括交互类日志、驱动类日志、通用接口类日志及系统类日志,其中,所述交互类日志由GUI、SHELL、MSA三种日志组成;所述驱动类日志包括DSP、AD\DA模数转换芯片、电压监控芯片、温度监控芯片的工作状态日志;所述通信接口类日志包括器件间通信的异常日志;所述系统类日志包括操作系统运行过程中的异常日志。
本发明还提供一种使用如上所述光模块诊断系统的光模块故障诊断方法,包括以下步骤:
S1、日志收集模块收集光模块光电信号转化过程中的日志信息;
S2、日志转发模块将所述日志信息转发至光模块串口,并存储所述日志信息,以及进行切包处理后传输至外部设备;
S3、日志提取模块提取切包处理后的日志信息,并将其上传到网管系统进行故障诊断。
在上述技术方案的基础上,所述步骤S2中,使用用户自定义的MSA寄存器进行日志信息的传递。
在上述技术方案的基础上,在所述步骤S1前,设置日志收集模块定时查询所有硬件软件信息并整理记录为日志信息;或设置日志收集模块在检查到异常告警时,将相关信息记录为日志信息。
在上述技术方案的基础上,在所述步骤S1前,设置日志收集模块在收到外部设备或者SHELL下发的记录日志命令时,对整个光模块的所有信息进行记录。
在上述技术方案的基础上,所述方法还包括:在所述日志信息收集后,将日志信息向外部波分设备进行转发的步骤。
在上述技术方案的基础上,所述将日志信息向外部波分设备进行转发的步骤具体包括:
将收集的日志信息进行归类,对不同类日志设定不同的标号,并将标号作为转发的数据包或数据帧的一部分进行传递;
将日志信息分段切包,对各包编号后封入数据帧,添加校验字段后传输至MSA寄存器;
MSA寄存器将封装好的数据帧向外部波分设备传递。
与现有技术相比,本发明的优点在于:
(1)本发明的光模块故障诊断系统将日志收集模块收集的信息,通过MSA规范规定的私有寄存器,传递到外围100G及以上速率的波分设备上,然后再由波分设备将日志通过以太网上传到配合波分设备使用的网管系统上进行存储、分析,最终完成故障定位。由于网管系统一般都运行在客户的服务器上,且资源丰富,本发明装置就可以在光模块内部器件、封装空间、功耗等严格受限的情况下,尽可能完整的保存历史故障信息,与此同时并不影响光模块其他功能的正常使用。
(2)本发明的光模块故障诊断方法通过对数据帧解包,校验,重组出正确的日志信息,最后上报给网管系统,最终展示在相应的可视设备上供工程维护人员进行分析定位,可通过驱动类日志、通用接口类日志、系统类日志等日志信息快速定位和解决交互通信、任务调度、死锁、内存泄露等光模块通信过程中的常见问题,适宜实际使用需求。
附图说明
图1为本发明实施例中光模块故障诊断系统的结构框图;
图2为本发明实施例中光模块故障诊断方法的日志信息转发路径图;
图3为本发明实施例中光模块故障诊断方法的日志信息收集流程图;
图4为本发明实施例中光模块故障诊断方法的日志信息转发流程图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
实施例1
参见图1所示,本发明实施例提供一种光模块故障诊断系统,包括:
日志收集模块,用于收集光模块光电信号转化过程中的日志信息,并提供给日志转发模块;日志收集模块具体包括日志收集模块,所述日志收集模块用于收集光模块产生的日志信息。这些日志信息主要包括模块的硬件运行状态,与外界交互过程中的响应反馈情况,内部软件运行状态等。这些日志信息将会被主动(通过定时记录)或被动(通过响应命令)记录下来,记录的日志信息交由日志转发功能处理。
日志转发模块,用于处理收集到的日志信息,并将其转发至光模块串口、存储设备和MSA寄存器。日志转发模块具体包括:通用打印日志模块,用于将收集到的日志信息转发至光模块串口和存储设备,以及将收集到的日志信息进行切包处理后传输至MSA寄存器;SHELL输出模块,用于输出传输至光模块串口的日志信息,供光模块调测平台对光模块输出进行监测和控制;存储设备,用于记录光模块产生的日志信息;MSA寄存器,用于接收通用打印日志模块切包处理后的日志信息,并传输至外部设备。该模块不关注具体的日志信息内容。通用打印日志模块会将收到的信息发送给光模块串口,通过SHELL输出模块打印出来,可以用来在光模块调测平台上对光模块输出进行监测和控制。当光模块存在记录日志的存储设备时,通用打印日志模块会将日志信息记录到存储设备里面;同时还会对信息进行切包处理,然后下发到私有MSA寄存器,供外部设备对日志信息进行重组、分析和存储。
日志提取模块,其工作在外部波分设备上,用于重新提取MSA寄存器传递的日志信息,并将其上传到网管系统进行存储和分析。具体的,日志提取模块包括:获取模块,其通过监控MSA寄存器,接收发现的日志数据帧,进行解帧、分类和重新组包等工作后,恢复出可读的光模块日志信息并传输至转发模块;转发模块,其支持windows、linux、ucos等多种操作系统,其在接收输出信息获取模块恢复的光模块日志信息后,将相关日志信息上报至网管系统进行存储和分析。
本发明中,日志收集模块收集的日志信息包括交互类日志、驱动类日志、通用接口类日志、系统类日志组成,具体包括:
1、交互类日志。交互类日志由GUI、SHELL、MSA三种日志组成。GUI是一种图形界面,主要用于生产调测使用,可以通过GUI的调测接口直接向光模块下发各种控制指令和运行参数。通过记录GUI日志可以便于后期排查由于生产制造引入的故障问题。SHELL是一种命令行终端,主要用于光模块研发过程中的调测使用。记录SHELL下发的命令,可以用于排查由于人为误操作导致的各种故障及问题。MSA日志主要记录MSA控制寄存器的变化,MSA控制寄存器通常由100G波分设备设置,通常用于修改波长、设置速率等操作。通过记录MSA日志可以查询外部设备对光模块的操作历史。此类日志在响应命令时产生,此类日志能很好的发现交互中通信是否异常、命令参数是否正确、响应结果是否正常,便于快速定位此类问题。
2、驱动类日志。驱动类日志主要记录具体的器件工作状态,如DSP这种对电层高速信号进行处理的器件,它的实时告警、性能、运行时的状态机的各种异常都会直接导致客户业务受损,因此通过对此类日志的记录与解析;与之配合的其他器件AD\DA模数转换芯片、电压、温度等监视类芯片都需要保持正常的工作状态,此类芯片任何异常也可能会导致严重后果,因此出现问题时也需要快速记录并上报。
3、通信接口类日志,其用于记录各种器件间通信的异常,该类日志分为串行总线日志和并行总线日志两大种类。具体的,串行总线日志记录包括如I2C、SPI、UART、MDIO等串行通信接口的日志信息;并行总线日志记录包括如Flex_bus、Local_bus等并行通信接口的日志信息。这些接口分别用于连接不同的器件,通过这些接口信息的采集,可以实现各种芯片的控制及信息的采集。而通信接口的稳定性,直接影响命令下发是否正确,采集数据是否有效。同时通过对通信接口的错误的记录,可以通过相应的日志信息快速定位因为通信错误导致的故障。
4、系统类日志。系统类日志是由操作系统运行过程中产生。其主要内容用于反映操作系统运行的稳定性,如操作系统运行是否稳定,相关的任务调度是否正常,是否存在如死锁、内存泄露、堆栈溢出等异常等。这些信息都会有相应的异常日志记录下来,这对定位如重启、死机等软件问题十分有帮助。
实施例2
如图2所示,本发明还提供使用如前所述光模块诊断装置的光模块故障诊断方法,包括以下步骤:
S1、使用日志收集模块收集光电信号转化过程的日志信息,如内部各种器件的运行状态参数,操作系统层面的各种任务堆栈信息,驱动层面的读写次数出错信息、应用层面的各种与业务相关的告警性能信息、交互层面的命令信息等,在收集好所有信息后,将日志信息传递给日志转发模块;
S2、日志转发模块使用光模块通用打印日志模块处理收集到的日志信息,并将其转发至光模块串口、存储设备和MSA寄存器。在此过程中,将日志信息进行分类编号、分组切包、排序等,按照私有的数据帧格式,通过有限的MSA私有寄存器传递出去。
S3、使用设置于外围100G波分设备上的日志提取模块监控所述MSA私有寄存器,在私有寄存器里面辨别出所需的日志信息的日志数据帧,接收发现的日志数据帧,对数据帧解包,校验,重组等,将其恢复为可读的模块日志信息,提供给转发模块后,上报到网管系统进行存储和分析,最终展示在相应的可视设备上供工程维护人员进行分析定位。
实施例3
本实施例提供使用如前所述光模块诊断装置的光模块故障诊断方法,除包含实施例2所有步骤外,还包括步骤S1前的光模块日志产生和记录过程。
光模块日志同时支持内部自动记录和外部触发记录两种方式,本实施例中,通过内部自动记录完成光模块日志的记录,具体方法为:在步骤S1前,设置日志收集模块定时查询所有硬件软件信息并整理记录为日志信息,如使用定时器触发定时查询,设置为1小时触发一次,触发后日志模块会查询所有硬件软件信息并整理记录;或设置日志收集模块在检查到异常告警时,将相关信息记录为日志信息,如设置在业务中断、温度过限、电压、AD、DA异常时,主动对相关信息进行记录。
实施例4
本实施例提供使用如前所述光模块诊断装置的光模块故障诊断方法,与实施例3基本相同,其区别在于,在步骤S1前的日志产生步骤中,通过外部指令触发日志记录过程,具体的,设置日志收集模块在收到外部设备或者SHELL下发的记录日志命令时,对整个光模块的所有信息进行记录。
实施例5
本实施例提供使用如前所述光模块诊断装置的光模块故障诊断方法,与实施例2基本相同,其区别在于,使用用户自定义的MSA私有寄存器进行日志信息的传递。本发明中涉及的MSA寄存器,这一段存储空间是《CFP MSA Management Interface Specification》里面规定的厂商私有自定义的寄存器,本发明中正是利用这个预设路径,将前述步骤封装好的数据帧向外部设备传递。
实施例6
本实施例提供使用如前所述光模块诊断装置的光模块故障诊断方法,与实施例5基本相同,其区别在于,如图4所示,将日志信息向外部波分设备进行转发的步骤具体如下:
日志分类处理,由于本发明中涉及的日志信息比较丰富,为了使用日志时能高效快捷的定位问题,在此步骤中将收集到的众多日志进行归类。不同类的日志对应不同的标号,作为转发的数据包或数据帧的一部分进行传递。
分包组装协议帧,日志信息被分好类后,一条日志可能数据量比较大,一个数据帧的长度可能容纳不下,无法一次性通过MSA寄存器将其传递出去,就需要将这条日志记录进行分段切包,使每个包可以放到一个数据帧里面,同时对每个包按序编号。每一个数据帧可以通过MSA寄存器一次性传递出去。第一个数据帧中记录好这条记录分段的总数,然后一个数据帧携带这条记录的一部分,最后给数据帧加上校验字段,如CRC或者校验和。这样一个完整的日志信息,就通过有限的MSA寄存器传递到外部波分设备上。
信息监测接收,由外部波分设备监测、解析从MSA寄存器传过来的数据帧。外部设备实时监听MSA寄存器,发现数据有更新就接收,然后将日志信息按包装数据帧时约定的分类编号,分别将各类日志信息组包,校验,还原光模块记录下的日志信息,并上报给网管系统进行存储记录和分析。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。