CN112019370A - 一种设备故障处理方法及系统 - Google Patents

一种设备故障处理方法及系统 Download PDF

Info

Publication number
CN112019370A
CN112019370A CN201910472295.5A CN201910472295A CN112019370A CN 112019370 A CN112019370 A CN 112019370A CN 201910472295 A CN201910472295 A CN 201910472295A CN 112019370 A CN112019370 A CN 112019370A
Authority
CN
China
Prior art keywords
data packet
equipment
diagnostic
information
response data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910472295.5A
Other languages
English (en)
Other versions
CN112019370B (zh
Inventor
文浩
尹淇
周明瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Changjiang Computing Technology Co ltd
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN201910472295.5A priority Critical patent/CN112019370B/zh
Publication of CN112019370A publication Critical patent/CN112019370A/zh
Application granted granted Critical
Publication of CN112019370B publication Critical patent/CN112019370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种设备故障处理方法及系统,涉及通信技术领域。设备故障处理方法包括:目标设备定时将状态信息和日志信息写入预设的保留内存中,以及监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断,诊断数据包包括MAC地址、诊断数据包的标识和目标设备的标识ID;根据诊断数据包携带的信息收集命令,将实时获取的状态信息和/或保留内存中的日志信息组装成第一响应数据包后发送给诊断设备;或者,根据诊断数据包携带的重启设备命令,向诊断设备发送命令收到的第二响应数据包,并触发设备重启操作。本发明可以兼顾目标设备的实时信息以及信息收集的效率,提高故障排查效率,并控制目标设备重启以恢复业务。

Description

一种设备故障处理方法及系统
技术领域
本发明涉及通信技术领域,具体是涉及一种设备故障处理方法及系统。
背景技术
通信系统由很多设备组成,且多个设备之间有依赖关系,随着通信系统的复杂度不断提升,设备连接越来越复杂,对通信系统稳定性的要求也越来越高。当通信系统中设备发生故障而脱离通信网管时,如果不能远程登录操作故障设备,就只能由工程人员到现场,通过本地串口连接故障设备收集定位故障,恢复故障设备,故障排查的效率低且难度大,无法及时恢复故障设备所承载业务,并收集故障信息,使得通信业务受损。
通信设备的在线故障诊断一般通过远程登录程序获取通信设备的故障信息,例如安全外壳(Secure Shell,SSH)和远程登录(Telecommunications Network,TELNET)等,这些方法都是在通信协议栈和系统调度正常时才能应用,如果因特网互联协议(InternetProtocol,IP)协议栈无法正常工作或者系统调度异常,甚至造成故障设备无法通过因特网包探索器(Packet Internet Groper,PING)命令进行PING通,无法进行在线故障诊断以及操控故障设备恢复业务。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种设备故障处理方法及系统,可以通过二层的数据包远程收集目标设备实时获取的状态信息和/或保留内存中的日志信息,兼顾目标设备的实时信息以及信息收集的效率,提高故障排查效率,并控制目标设备重启以恢复业务。
本发明提供一种设备故障处理方法,其包括:
目标设备定时将状态信息和日志信息写入预设的保留内存中,以及监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断,诊断数据包包括MAC地址、诊断数据包的标识和目标设备的标识ID;
根据诊断数据包携带的信息收集命令,将实时获取的状态信息和/或保留内存中的日志信息组装成第一响应数据包后发送给诊断设备;或者,根据诊断数据包携带的重启设备命令,向诊断设备发送命令收到的第二响应数据包,并触发设备重启操作。
在上述技术方案的基础上,执行设备重启操作之后,所述方法还包括:
将所述保留内存中的所述状态信息和/或日志信息组装成第三响应数据包后发送给诊断设备;或者,
接收诊断设备重新发送的所述诊断数据包,根据所述诊断数据包携带的所述信息收集命令,将所述保留内存中的所述状态信息和/或日志信息组装成第三响应数据包后发送给诊断设备。
在上述技术方案的基础上,所述方法还包括以下操作中的一种或几种:
根据所述诊断数据包携带的复位设备命令触发设备复位操作;
根据所述诊断数据包携带的重启进程命令触发进程重启操作;
根据所述诊断数据包携带的所述信息收集命令,收集指定的运行信息,将指定的运行信息组装成第四响应数据包后发送给诊断设备。
在上述技术方案的基础上,所述方法还包括:
实时检测运行信息,将异常的运行信息组装成第五响应数据包后发给诊断设备;或者,
周期性地检测网口数据,如果在检测周期内网口数据没有变化,则将异常的运行信息、所述状态信息和日志信息写入所述保留内存中,重启设备。
在上述技术方案的基础上,具有内存检测器件的目标设备执行重启操作时,首先关闭内存检测器件对所述保留内存的错误检测使能,通过直接内存存取DMA对所述保留内存进行快速刷新,再打开错误检测使能。
本发明还提供一种设备故障处理方法,其包括:
诊断设备通过网卡驱动向目标设备发送携带信息收集命令的诊断数据包;
监听网卡驱动接收目标设备返回的响应数据包所产生的中断,如果在预定时限内收到第一响应数据包,则从第一响应数据包中解析出实时获取的状态信息和/或保留内存中的日志信息,以进行故障诊断分析;否则,向目标设备发送携带重启设备命令的诊断数据包,接收并解析目标设备返回的命令收到的第二响应数据包;
其中,诊断数据包均包括MAC地址、诊断数据包的标识和目标设备的标识ID。
本发明还提供一种设备故障处理系统,设于目标设备中,所述系统包括第一通信模块、第一处理模块、检测模块、收集模块和预设的保留内存;
所述检测模块用于定时将状态信息和日志信息写入所述保留内存中;
所述第一通信模块用于监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断,并通知所述第一处理模块,其中,诊断数据包包括MAC地址、诊断数据包的标识和目标设备的标识ID;还用于将所述第一处理模块组装的所有响应数据包发送给诊断设备;
所述收集模块用于收集实时的状态信息;
所述第一处理模块用于根据诊断数据包携带的信息收集命令,将实时获取的状态信息和/或所述保留内存中的日志信息组装成第一响应数据包;还用于根据诊断数据包携带的重启设备命令,组装命令收到的第二响应数据包并发送给诊断设备,并触发设备重启操作。
在上述技术方案的基础上,所述第一处理模块还用于将所述保留内存中的所述状态信息和/或日志信息组装成第三响应数据包;
所述第一处理模块还用于根据所述诊断数据包携带的复位设备命令触发设备复位操作;根据所述诊断数据包携带的重启进程命令触发进程重启操作;
所述收集模块还用于根据所述诊断数据包携带的所述信息收集命令,收集指定的运行信息;所述第一处理模块还用于将指定的运行信息组装成第四响应数据包。
在上述技术方案的基础上,所述检测模块还用于实时检测运行信息;
所述第一处理模块还用于将异常的运行信息组装成第五响应数据包;
所述检测模块还用于周期性地检测网口数据,如果在检测周期内网口数据没有变化,则将设备异常信息、所述状态信息和日志信息写入所述保留内存中,通知所述第一处理模块触发重启设备。
本发明还提供一种设备故障处理系统,设于诊断设备中,所述系统包括第二通信模块和第二处理模块;
所述第二通信模块用于通过网卡驱动向目标设备发送携带信息收集命令的诊断数据包以及携带重启设备命令的诊断数据包;还用于监听网卡驱动接收目标设备返回的响应数据包所产生的中断,并通知所述第二处理模块;其中,诊断数据包均包括MAC地址、诊断数据包的标识和目标设备的标识ID;
所述第二处理模块用于解析在预定时限内收到的第一响应数据包,得到实时获取的状态信息和/或保留内存中的日志信息,以进行故障诊断分析;解析目标设备返回的命令收到的第二响应数据包。
与现有技术相比,本发明实施例通过设备故障处理方法,目标设备定时将状态信息和日志信息写入预设的保留内存中,以及监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断,诊断数据包包括MAC地址、诊断数据包的标识和目标设备的标识ID;根据诊断数据包携带的信息收集命令,将实时获取的状态信息和/或保留内存中的日志信息组装成第一响应数据包后发送给诊断设备;或者,根据诊断数据包携带的重启设备命令,向诊断设备发送命令收到的第二响应数据包,并触发设备重启操作。
本发明实施例在系统调度异常或者通信协议栈异常,无法使用远程网络登录,甚至无法PING通故障设备时,仍然可以通过二层的数据包远程收集目标设备实时获取的状态信息和/或保留内存中的日志信息,兼顾目标设备的实时信息以及信息收集的效率,提高故障排查效率,并控制目标设备重启以恢复业务。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例设备故障处理方法流程图;
图2是诊断数据包净荷的示意图;
图3是本发明另一实施例设备故障处理方法流程图;
图4是本发明再一实施例设备故障处理方法流程图;
图5是本发明实施例设备故障处理方法的一种应用流程图;
图6是本发明实施例设备故障处理系统示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述。
参见图1所示,本发明实施例提供一种设备故障处理方法,用于目标设备,设备故障处理方法包括:
S110目标设备定时将状态信息和日志信息写入预设的保留内存中,以及监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断,其中,诊断数据包均包括媒体接入控制(Media Access Control,MAC)地址、诊断数据包的标识和目标设备的标识ID。
根据诊断数据包携带的命令执行步骤S120或者S130。
S120根据诊断数据包携带的信息收集命令,将实时获取的状态信息和/或保留内存中的日志信息组装成第一响应数据包后发送给诊断设备。
S130根据诊断数据包携带的重启设备命令,向诊断设备发送命令收到的第二响应数据包,并触发设备重启操作。
具体的,状态信息包括中央处理器(Central Processing Unit,CPU)、内存、高速外围组件互连(Peripheral Component Interconnect express,PCIe)总线接口、进程和堆栈等信息。
具体的,诊断数据包和响应数据包都是二层报文,包括目的MAC地址、源MAC地址和净荷部分。
图2所示为诊断数据包净荷部分的一个示例,净荷部分包括关键字、目标ID、命令码、数据长度和数据信息,其中,关键字包括诊断数据包的标识,用于区别于其他类型的数据包;目标ID包括目标设备的标识ID,目标设备的标识ID是网络内的唯一标识ID,例如,对于有框槽号的目标设备,可以采用框槽号作为目标设备的标识ID,对于没有框槽号的目标设备,可以根据生产信息序号设置,不作限定。命令码包括诊断数据包所携带的信息收集命令或者重启设备命令。
响应数据包净荷部分包括关键字、目标ID、命令码、数据长度和数据信息,实时获取的状态信息和/或保留内存中的日志信息写入数据信息字段。其中,响应数据包可以包含状态信息中的一项或多项信息。
根据响应数据包携带的内容不同,响应数据包分为第一响应数据包和第二响应数据包等。
诊断设备向目标设备发送的诊断数据包一般是单播,但也支持多播和组播。为了安全性和可靠性,诊断数据包有循环冗余校验(Cyclic Redundancy Check,CRC)校验字段,诊断内容是密文,对收到的数据包进行解析后,确定是自发时则丢弃。
目标设备网口中断处理根据关键字判断诊断数据包,只处理目标ID与本设备的标识ID相同的数据包(0xff广播包除外)。
具体的,目标设备启动时,为故障诊断设置保留内存。
在没有内存检测器件的目标设备中,保留内存为高端内存,高端内存能避免系统启动时被初始化。
对具有硬件内存检测器件(如错误检查和纠正(Error Checking andCorrecting,ECC))的设备,采用以下方法实现保留内存。
具体的,具有内存检测器件的目标设备执行重启操作时,在引导启动boot阶段首先关闭内存检测器件对保留内存的错误检测使能,通过直接内存存取(Direct MemoryAccess,DMA)对保留内存进行快速刷新,再打开错误检测使能,在目标设备重启时,保留内存内存储的信息仍然保留。系统启动阶段设置保留内存不被系统初始化,保证保留内存空间既不被ECC判为内存异常,也不会被系统初始化。故障信息和关键历史资源信息保存在保留内存中,能热重启后依然存在。
通信设备通过保留内存记录诊断信息,而有硬件内存检测器件的新设备无法建立有效保留内存。本发明实施例对热重启保留内存实现方法改进,能用于有硬件检测模块ECC内存管理的设备。
在步骤S130中,触发设备重启操作可以包括:生成运行异常标志并写入保留内存中,然后执行设备重启。
如果目标设备具有非易失性存储器(例如FLASH),目标设备还可以在重启前将保留内存中的信息转储到非易失性存储器中,然后执行设备重启操作,避免目标设备掉电而失去保留内存中的信息。
在一种示例中,如果诊断设备超时没收到响应数据包,可能目标设备能在通信驱动层接收诊断数据包,但不能发送响应数据包,诊断设备可执行转储命令后,发送携带重启设备命令的诊断数据包。
本发明实施例中,目标设备监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断,根据诊断数据包携带的信息收集命令,将实时获取的状态信息和/或保留内存中的日志信息组装成第一响应数据包后发送给诊断设备。根据诊断数据包携带的重启设备命令,向诊断设备发送命令收到的第二响应数据包,并触发设备重启操作。在系统调度异常或者通信协议栈异常,无法使用远程网络登录,甚至无法PING通故障设备时,使得诊断设备仍然可以通过二层的数据包远程收集目标设备的信息并控制目标设备。
保留内存中的状态信息和日志信息为目标设备的历史信息,实时获取的状态信息是目标设备的当前状态信息,向诊断设备发送实时获取的状态信息和/或保留内存中的日志信息,兼顾目标设备的实时信息以及信息收集的效率,提高诊断设备进行故障排查的效率。
在一种可选的实施方式中,步骤S120还可以包括:
根据诊断数据包携带的信息收集命令,收集指定的运行信息,将运行信息组装成第四响应数据包后发给诊断设备。
具体的,目标设备可以通过系统函数或Linux的内核动态探针(Kernel DynamicProbes,Kprobe)技术获取指定的运行信息,使得诊断设备能够获得指定的运行信息。
在一种可选的实施方式中,步骤S130之后,目标设备重启后,重新接收诊断数据包并发送保留内存中的信息。设备故障处理方法还包括:
S140接收诊断设备重新发送的诊断数据包。
具体的,目标设备监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断。
S150根据诊断数据包携带的信息收集命令,将保留内存中的状态信息和/或日志信息组装成第三响应数据包后发送给诊断设备。
在本发明实施例中,由于目标设备定时将状态信息和日志信息写入预设的保留内存中,保留内存中的信息在设备重启后不会丢失,从而在设备重启后,再向诊断设备发送状态信息和/或日志信息,确保诊断设备获得状态信息和/或日志信息,以进行远程故障诊断。
在一种可选的实施方式中,在步骤S130之后,目标设备还可以直接向诊断设备发送保留内存中的信息,设备故障处理方法还包括:
S160将保留内存中的状态信息和/或日志信息组装成第三响应数据包后发送给诊断设备。
具体的,目标设备根据重启前写入保留内存中的运行异常标志,组装第三响应数据包并发送给诊断设备。
参见图3所示,本发明另一实施例设备故障处理方法包括:
S210目标设备定时将状态信息和日志信息写入预设的保留内存中,以及监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断,其中,诊断数据包包括MAC地址、诊断数据包的标识和目标设备的标识ID。
根据诊断数据包携带的命令执行步骤S220或者S230。
S220根据诊断数据包携带的复位设备命令触发设备复位操作。
S230根据诊断数据包携带的重启进程命令触发进程重启操作。
具体的,执行步骤S220和S230之后,均还可以向诊断设备发送执行结果的响应数据包。
在其他可选的实施方式中,步骤S220或者S230也可以在步骤S120之后执行。步骤S220或者S230也可以在步骤S150之后执行。步骤S220或者S230也可以在步骤S160之后执行。不作限定。
在上述实施例的基础上,本发明实施例设备故障处理方法还包括:
S310实时检测运行信息,将异常的运行信息组装成第五响应数据包后发给诊断设备。
具体的,目标设备可以通过系统函数或Linux的Kprobe技术获取指定的运行信息。目标设备除了响应诊断设备的诊断数据包,进行收集信息、控制进程重启、设备重启或者设备复位之外,目标设备还可以主动向诊断设备发送异常的运行信息。
在上述实施例的基础上,本发明实施例设备故障处理方法还包括:
S320周期性地检测网口数据,如果在检测周期内网口数据没有变化,则将异常的运行信息、状态信息和日志信息写入保留内存中,重启设备。
具体的,网口数据包括接收包计数、发送包计数和错误包计数等参数。
本发明实施例中,如果目标设备检测到通信网口超时数据无变化时(例如超过2小时),表明此时目标设备已经长期脱管运行,网口软件彻底异常,目标设备可能无法收到诊断数据包,必须重启以恢复业务。重启前,目标设备在保留内存记录异常标志和故障信息(如进程和堆栈信息,其他关键信息),如果目标设备具有非易失性存储器(例如FLASH),则转储重要数据和诊断信息等设备异常信息,然后重启设备。目标设备恢复后,诊断设备远端能获取保留内存内的故障信息和历史关键信息记录,用于故障诊断。
参见图4所示,本发明实施例提供一种设备故障处理方法,用于诊断设备,设备故障处理方法包括:
S410诊断设备通过网卡驱动向目标设备发送携带信息收集命令的诊断数据包。
S420监听网卡驱动接收目标设备返回的响应数据包所产生的中断。
S430判断是否在预定时限内收到第一响应数据包,若是,则进入步骤S440;若否,则进入步骤S450。
S440从第一响应数据包中解析出实时获取的状态信息和/或保留内存中的日志信息,以进行故障诊断分析,结束。
S450向目标设备发送携带重启设备命令的诊断数据包。
S460接收并解析目标设备返回的命令收到的第二响应数据包。
在一种可选的实施方式中,步骤S410中,信息收集命令携带指定的运行信息。设备故障处理方法还包括:接收并解析目标设备返回的第四响应数据包,第四响应数据包包括运行信息。
在一种可选的实施方式中,在步骤S460之后,设备故障处理方法还包括:
S470向目标设备重新发送携带信息收集命令的诊断数据包。
S480接收并解析目标设备返回的第三响应数据包。
在一种可选的实施方式中,在步骤S460之后,设备故障处理方法还包括:
S490接收目标设备返回的第三响应数据包,从第三响应数据包中解析出保留内存中的状态信息和/或日志信息。
在一种可选的实施方式中,设备故障处理方法包括:
S510向目标设备发送携带复位设备命令的诊断数据包。
在一种可选的实施方式中,设备故障处理方法包括:
S520向目标设备发送携带重启进程命令的诊断数据包。
在一种可选的实施方式中,设备故障处理方法还包括:接收并解析目标设备发送的第五响应数据包,第五响应数据包包括异常的运行信息。
参见图5所示,本发明实施例设备故障处理方法的一种应用流程图,目标设备中设备故障处理方法包括:
S601目标设备系统启动,设置保留内存。
S602加载诊断程序。
S603a设置目标设备的标识ID,进入步骤S604。
S603b状态信息和日志信息写入保留内存,进入步骤S608。
S604监听网卡驱动中断。
S605是否是诊断数据包,若是,进入步骤S606;若否,返回步骤S604。
S606解析诊断数据包。
S607执行并返回响应数据包。
S608检查运行信息是否正常,若是,进入步骤S609;若否,进入步骤S610。
S609检查网口数据是否正常,若是,返回步骤S603b;若否,进入步骤S611。
S610发送异常的运行信息。
诊断设备中设备故障处理方法包括:
S701发起诊断。
S702选择功能选项。
功能选项包括信息收集、重启设备、重启进程和设备复位等。信息收集可以收集状态信息中的一项或几项、日志信息等。
S703是否退出诊断,若是,进入步骤S704;若否,进入步骤S705。
S704退出诊断。
S705发送诊断数据包,其中,诊断数据包携带步骤S702中选择的功能选项对应的命令。
S706监听网卡驱动中断。
S707判断是否收到响应数据包或超时,若是,进入步骤S708;若否,返回步骤S706。
S708显示解析响应数据包的结果,返回步骤S702。
参见图6所示,本发明实施例提供一种设备故障处理系统,设于目标设备中,设备故障处理系统包括第一通信模块、第一处理模块、检测模块、收集模块和预设的保留内存。第一通信模块位于网卡驱动中。在操作系统(Operating System,OS)网卡驱动层修改增加第一通信模块,用于不同设备间通信,第一通信模块和第一处理模块通过套接字通信。
检测模块用于定时将状态信息和日志信息写入保留内存中。
第一通信模块用于监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断,并通知第一处理模块,其中,诊断数据包包括MAC地址、诊断数据包的标识和目标设备的标识ID;还用于将第一处理模块组装的所有响应数据包发送给诊断设备。
收集模块用于收集实时的状态信息。
第一处理模块用于根据诊断数据包携带的信息收集命令,将实时获取的状态信息和/或保留内存中的日志信息组装成第一响应数据包;还用于根据诊断数据包携带的重启设备命令,组装命令收到的第二响应数据包并发送给诊断设备,以及触发设备重启操作。
在一种可选的实施方式中,第一处理模块还用于根据诊断数据包携带的复位设备命令触发设备复位操作;根据诊断数据包携带的重启进程命令触发进程重启操作;
收集模块还用于根据诊断数据包携带的信息收集命令,收集指定的运行信息;第一处理模块还用于将指定的运行信息组装成第四响应数据包。
在一种可选的实施方式中,检测模块还用于实时检测运行信息;第一处理模块还用于将异常的运行信息组装成第五响应数据包。
在一种可选的实施方式中,检测模块还用于周期性地检测网口数据,如果在检测周期内网口数据没有变化,则将设备异常信息、状态信息和日志信息写入保留内存中,通知第一处理模块触发重启设备。
在具有内存检测器件的目标设备中,设备故障处理系统还包括控制模块,控制模块用于执行重启操作时,首先关闭内存检测器件对保留内存的错误检测使能,通过直接内存存取DMA对保留内存进行快速刷新,再打开错误检测使能。
进一步的,设备故障处理系统还包括配置模块,配置模块用于设置本网络内唯一标识ID,有框槽号则根据框槽号,无框槽号则根据生产信息序号设置。
参见图6所示,本发明实施例还提供一种设备故障处理系统,设于诊断设备中,设备故障处理系统包括第二通信模块、第二处理模块、存储模块和交互模块。
第二通信模块位于网卡驱动中。在操作系统OS网卡驱动层修改增加第二通信模块,用于不同设备间通信,第二通信模块和第二处理模块通过套接字通信。
第二通信模块用于通过网卡驱动向目标设备发送携带信息收集命令的诊断数据包以及携带重启设备命令的诊断数据包;还用于监听网卡驱动接收目标设备返回的响应数据包所产生的中断,并通知第二处理模块;其中,诊断数据包均包括MAC地址、诊断数据包的标识和目标设备的标识ID。
第二处理模块用于解析在预定时限内收到的第一响应数据包,得到实时获取的状态信息和/或保留内存中的日志信息,以进行故障诊断分析;解析目标设备返回的命令收到的第二响应数据包。
存储模块用于保存故障诊断分析的结果。
交互模块用于接收维护人员或者网管下发的消息,并显示故障诊断分析的结果。
以Linux操作系统为例,需要诊断时,诊断设备的第二通信模块在网域内发送二层报文用于诊断协商,使用内核dev_queue_xmit函数发送。目标设备的通信网口以IntelPRO/1000网卡为例,第一通信模块通过e1000_request_irq注册中断处理函数e1000_intr,当收到诊断数据包时,根据诊断数据包中的关键字是否匹配来判断是否诊断诊断包,非诊断诊断包则按正常数据包处理流程。第一处理模块对诊断协商命令会响应发起的诊断设备,诊断数据包含本目标设备的信息如标识ID和MAC地址。目标设备后续会对诊断协商命令响应的数据包解析,建立设备标识ID和MAC地址关系表,用于根据MAC地址发送响应数据包。
在一种可选的实施方式中,第二处理模块还用于解析目标设备返回的第三响应数据包,得到保留内存中的状态信息和/或日志信息。
在一种可选的实施方式中,第二通信模块还用于向目标设备发送携带复位设备命令的诊断数据包以及携带重启进程命令的诊断数据包。
信息收集命令携带指定的运行信息;第二处理模块还用于解析目标设备返回的第四响应数据包,第四响应数据包包括指定的运行信息。
在一种可选的实施方式中,第二通信模块还用于接收目标设备发送的第五响应数据包,第五响应数据包包括异常的运行信息。
第二处理模块还用于解析第五响应数据包。
本发明实施例在Linux操作系统上开发,也适用于其他类似软件描述。设备故障诊断与处理方法不仅适用于上述的收集和控制命令,也适用于对诊断设备的其他操作,诊断数据包格式和内容可以根据实际情况进行相应调整。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种设备故障处理方法,其特征在于,其包括:
目标设备定时将状态信息和日志信息写入预设的保留内存中,以及监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断,诊断数据包包括MAC地址、诊断数据包的标识和目标设备的标识ID;
根据诊断数据包携带的信息收集命令,将实时获取的状态信息和/或保留内存中的日志信息组装成第一响应数据包后发送给诊断设备;或者,根据诊断数据包携带的重启设备命令,向诊断设备发送命令收到的第二响应数据包,并触发设备重启操作。
2.如权利要求1所述的设备故障处理方法,其特征在于,执行设备重启操作之后,所述方法还包括:
将所述保留内存中的所述状态信息和/或日志信息组装成第三响应数据包后发送给诊断设备;或者,
接收诊断设备重新发送的所述诊断数据包,根据所述诊断数据包携带的所述信息收集命令,将所述保留内存中的所述状态信息和/或日志信息组装成第三响应数据包后发送给诊断设备。
3.如权利要求1所述的设备故障处理方法,其特征在于,所述方法还包括以下操作中的一种或几种:
根据所述诊断数据包携带的复位设备命令触发设备复位操作;
根据所述诊断数据包携带的重启进程命令触发进程重启操作;
根据所述诊断数据包携带的所述信息收集命令,收集指定的运行信息,将指定的运行信息组装成第四响应数据包后发送给诊断设备。
4.如权利要求1所述的设备故障处理方法,其特征在于,所述方法还包括:
实时检测运行信息,将异常的运行信息组装成第五响应数据包后发给诊断设备;或者,
周期性地检测网口数据,如果在检测周期内网口数据没有变化,则将异常的运行信息、所述状态信息和日志信息写入所述保留内存中,重启设备。
5.如权利要求1所述的设备故障处理方法,其特征在于:
具有内存检测器件的目标设备执行重启操作时,首先关闭内存检测器件对所述保留内存的错误检测使能,通过直接内存存取DMA对所述保留内存进行快速刷新,再打开错误检测使能。
6.一种设备故障处理方法,其特征在于,其包括:
诊断设备通过网卡驱动向目标设备发送携带信息收集命令的诊断数据包;
监听网卡驱动接收目标设备返回的响应数据包所产生的中断,如果在预定时限内收到第一响应数据包,则从第一响应数据包中解析出实时获取的状态信息和/或保留内存中的日志信息,以进行故障诊断分析;否则,向目标设备发送携带重启设备命令的诊断数据包,接收并解析目标设备返回的命令收到的第二响应数据包;
其中,诊断数据包均包括MAC地址、诊断数据包的标识和目标设备的标识ID。
7.一种设备故障处理系统,设于目标设备中,其特征在于:所述系统包括第一通信模块、第一处理模块、检测模块、收集模块和预设的保留内存;
所述检测模块用于定时将状态信息和日志信息写入所述保留内存中;
所述第一通信模块用于监听网卡驱动接收诊断设备发送的诊断数据包所产生的中断,并通知所述第一处理模块,其中,诊断数据包包括MAC地址、诊断数据包的标识和目标设备的标识ID;还用于将所述第一处理模块组装的所有响应数据包发送给诊断设备;
所述收集模块用于收集实时的状态信息;
所述第一处理模块用于根据诊断数据包携带的信息收集命令,将实时获取的状态信息和/或所述保留内存中的日志信息组装成第一响应数据包;还用于根据诊断数据包携带的重启设备命令,组装命令收到的第二响应数据包并发送给诊断设备,并触发设备重启操作。
8.如权利要求7所述的设备故障处理系统,其特征在于:
所述第一处理模块还用于将所述保留内存中的所述状态信息和/或日志信息组装成第三响应数据包;
所述第一处理模块还用于根据所述诊断数据包携带的复位设备命令触发设备复位操作;根据所述诊断数据包携带的重启进程命令触发进程重启操作;
所述收集模块还用于根据所述诊断数据包携带的所述信息收集命令,收集指定的运行信息;所述第一处理模块还用于将指定的运行信息组装成第四响应数据包。
9.如权利要求7所述的设备故障处理系统,其特征在于:
所述检测模块还用于实时检测运行信息;
所述第一处理模块还用于将异常的运行信息组装成第五响应数据包;
所述检测模块还用于周期性地检测网口数据,如果在检测周期内网口数据没有变化,则将设备异常信息、所述状态信息和日志信息写入所述保留内存中,通知所述第一处理模块触发重启设备。
10.一种设备故障处理系统,设于诊断设备中,其特征在于:所述系统包括第二通信模块和第二处理模块;
所述第二通信模块用于通过网卡驱动向目标设备发送携带信息收集命令的诊断数据包以及携带重启设备命令的诊断数据包;还用于监听网卡驱动接收目标设备返回的响应数据包所产生的中断,并通知所述第二处理模块;其中,诊断数据包均包括MAC地址、诊断数据包的标识和目标设备的标识ID;
所述第二处理模块用于解析在预定时限内收到的第一响应数据包,得到实时获取的状态信息和/或保留内存中的日志信息,以进行故障诊断分析;解析目标设备返回的命令收到的第二响应数据包。
CN201910472295.5A 2019-05-31 2019-05-31 一种设备故障处理方法及系统 Active CN112019370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910472295.5A CN112019370B (zh) 2019-05-31 2019-05-31 一种设备故障处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910472295.5A CN112019370B (zh) 2019-05-31 2019-05-31 一种设备故障处理方法及系统

Publications (2)

Publication Number Publication Date
CN112019370A true CN112019370A (zh) 2020-12-01
CN112019370B CN112019370B (zh) 2022-07-15

Family

ID=73506222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910472295.5A Active CN112019370B (zh) 2019-05-31 2019-05-31 一种设备故障处理方法及系统

Country Status (1)

Country Link
CN (1) CN112019370B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726713A (zh) * 2022-03-02 2022-07-08 阿里巴巴(中国)有限公司 节点故障模型训练方法、检测方法、设备、介质及产品
CN115086159A (zh) * 2022-05-24 2022-09-20 深信服科技股份有限公司 信息处理方法、装置及存储介质
CN116094812A (zh) * 2023-01-18 2023-05-09 重庆赛力斯新能源汽车设计院有限公司 车内以太网部件的通信方法、设备及介质
CN116661678A (zh) * 2022-12-28 2023-08-29 荣耀终端有限公司 数据转储方法及电子设备
CN116701041A (zh) * 2023-07-27 2023-09-05 飞腾信息技术有限公司 一种内存数据保留方法、保留装置和相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5245615A (en) * 1991-06-06 1993-09-14 International Business Machines Corporation Diagnostic system and interface for a personal computer
CN101169758A (zh) * 2007-11-19 2008-04-30 中兴通讯股份有限公司 一种Linux操作系统进程调度信息的监测方法
CN101702661A (zh) * 2009-11-19 2010-05-05 中兴通讯股份有限公司 一种诊断信息的获取方法及装置
CN101917225A (zh) * 2010-08-04 2010-12-15 烽火通信科技股份有限公司 一种gpon系统中盘间stm-1接口自动保护倒换的实现方法
CN108663581A (zh) * 2017-11-15 2018-10-16 云南电网有限责任公司大理供电局 一种智能变电站二次设备测试方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5245615A (en) * 1991-06-06 1993-09-14 International Business Machines Corporation Diagnostic system and interface for a personal computer
CN101169758A (zh) * 2007-11-19 2008-04-30 中兴通讯股份有限公司 一种Linux操作系统进程调度信息的监测方法
CN101702661A (zh) * 2009-11-19 2010-05-05 中兴通讯股份有限公司 一种诊断信息的获取方法及装置
CN101917225A (zh) * 2010-08-04 2010-12-15 烽火通信科技股份有限公司 一种gpon系统中盘间stm-1接口自动保护倒换的实现方法
CN108663581A (zh) * 2017-11-15 2018-10-16 云南电网有限责任公司大理供电局 一种智能变电站二次设备测试方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726713A (zh) * 2022-03-02 2022-07-08 阿里巴巴(中国)有限公司 节点故障模型训练方法、检测方法、设备、介质及产品
CN114726713B (zh) * 2022-03-02 2024-01-12 阿里巴巴(中国)有限公司 节点故障模型训练方法、检测方法、设备、介质及产品
CN115086159A (zh) * 2022-05-24 2022-09-20 深信服科技股份有限公司 信息处理方法、装置及存储介质
CN116661678A (zh) * 2022-12-28 2023-08-29 荣耀终端有限公司 数据转储方法及电子设备
CN116661678B (zh) * 2022-12-28 2024-04-19 荣耀终端有限公司 数据转储方法及电子设备
CN116094812A (zh) * 2023-01-18 2023-05-09 重庆赛力斯新能源汽车设计院有限公司 车内以太网部件的通信方法、设备及介质
CN116701041A (zh) * 2023-07-27 2023-09-05 飞腾信息技术有限公司 一种内存数据保留方法、保留装置和相关设备
CN116701041B (zh) * 2023-07-27 2023-11-10 飞腾信息技术有限公司 一种内存数据保留方法、保留装置和相关设备

Also Published As

Publication number Publication date
CN112019370B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN112019370B (zh) 一种设备故障处理方法及系统
US10491671B2 (en) Method and apparatus for switching between servers in server cluster
CN109714202B (zh) 一种客户端离线原因判别方法和集群式安全管理系统
CN103414916B (zh) 一种故障诊断系统及方法
US7257731B2 (en) System and method for managing protocol network failures in a cluster system
CN106161109B (zh) 网络异常自恢复方法
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
US6249812B1 (en) Interactive system support using a system management asic
CN108429629A (zh) 设备故障恢复方法和装置
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN109525434B (zh) 一种基于机载设备板卡的冗余备份方法
CN112738295B (zh) Ip地址异常处理方法、装置、计算机系统和存储介质
CN108174400B (zh) 一种终端设备的数据处理方法及系统、设备
CN114866365B (zh) 仲裁机选举方法、装置、智能设备及计算机可读存储介质
CN103905247A (zh) 一种基于多客户裁决的双机备份方法及系统
CN111953542B (zh) 一种保障网关稳定运行的系统
US7499987B2 (en) Deterministically electing an active node
CN109981491A (zh) 异常处理方法及接口板
CN109982065A (zh) 视频监控网络中设备故障恢复的方法、装置及存储介质
CN106406963B (zh) 一种Linux系统的初始化方法和装置
CN108174398B (zh) 一种终端设备的数据处理方法及系统、设备
CN110311753B (zh) 通信方法、装置、节点、存储介质及系统
CN108762886A (zh) 虚拟机的故障检测恢复方法及系统
CN100421381C (zh) 一种获取网络设备运行和故障状态信息的方法及装置
CN107896176B (zh) 一种计算节点的处理方法、智能终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240626

Address after: 430000 No. 6, High-tech Fourth Road, Donghu High-tech Development Zone, Wuhan City, Hubei Province

Patentee after: FIBERHOME TELECOMMUNICATION TECHNOLOGIES Co.,Ltd.

Country or region after: China

Patentee after: Wuhan Changjiang Computing Technology Co.,Ltd.

Address before: 430000 No. 6, High-tech Fourth Road, Donghu High-tech Development Zone, Wuhan City, Hubei Province

Patentee before: FIBERHOME TELECOMMUNICATION TECHNOLOGIES Co.,Ltd.

Country or region before: China