CN111682977A

CN111682977A - 网络设备的异常处理方法、装置、存储介质及网络设备

Info

Publication number: CN111682977A
Application number: CN202010361368.6A
Authority: CN
Inventors: 潘旭洲
Original assignee: TP Link Technologies Co Ltd
Current assignee: TP Link Technologies Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-09-18

Abstract

本发明公开了一种网络设备的异常处理方法、装置、计算机可读存储介质及网络设备，包括：根据预设的时间周期和若干个监控子程序分别轮询若干个监控对象的运行状态，获取相应的状态指标；其中，每个监控子程序对应监控不同的监控对象，每个监控对象对应至少一个状态指标；根据获得的状态指标判断对应的监控对象是否出现异常；当任一监控对象出现异常时，根据预设的异常恢复规则对出现异常的监控对象进行异常恢复处理。采用本发明的技术方案能够提前判断多种监控对象异常并及时处理，无需在处理每一种异常时均重启整个系统，系统稳定性较好，用户体验较佳。

Description

网络设备的异常处理方法、装置、存储介质及网络设备

技术领域

本发明涉及通信技术领域，尤其涉及一种网络设备的异常处理方法、装置、计算机可读存储介质及网络设备。

背景技术

现有技术中的网络通信设备，如路由器等，有一套基于看门狗的异常恢复机制，当系统僵死时，能够重启设备，使得业务恢复到正常状态；看门狗机制需要一个喂狗进程，定时器每次超时时即重启设备，如果收到喂狗进程，则重置定时器；当系统正常时，每隔一段时间输出一个信号到喂狗端，使系统复位，防止死机。这种机制只能针对系统发生僵死的情况做出恢复。

但是，现有的看门狗机制存在以下缺陷：

(1)监控的对象仅是系统指标，如进程是否存在、内存大小、IP地址、路由表、特定驱动的运行状态，并不能监控系统指标之外的功能模块或者外设模块，很可能存在系统指标正常，而某个外设模块或功能模块异常的情况，导致设备功能异常持续存在的情况；

(2)看门狗机制只有在系统出现异常之后，不能喂狗时才能发现问题，不能在异常发生前期(尚未造成系统异常)时发现问题并解决问题，有一定的滞后性；

(3)发现异常之后，只能通过杀死看门狗喂狗进程以重启整个系统使得设备恢复正常，这会造成通信服务中断，系统稳定性较差，用户体验不佳。

发明内容

本发明实施例所要解决的技术问题在于，提供一种网络设备的异常处理方法、装置、计算机可读存储介质及网络设备，能够提前判断多种监控对象异常并及时处理，无需在处理每一种异常时均重启整个系统，系统稳定性较好，用户体验较佳。

为了解决上述技术问题，本发明实施例提供了一种网络设备的异常处理方法，包括：

根据预设的时间周期和若干个监控子程序分别轮询若干个监控对象的运行状态，获取相应的状态指标；其中，每个监控子程序对应监控不同的监控对象，每个监控对象对应至少一个状态指标；

根据获得的状态指标判断对应的监控对象是否出现异常；

当任一监控对象出现异常时，根据预设的异常恢复规则对出现异常的监控对象进行异常恢复处理。

进一步地，所述监控对象至少包括网络设备的系统指标、功能模块和外设模块；所述系统指标至少包括CPU使用率、内存和进程中的一种；所述功能模块至少包括ipv6模块、vpn模块和wan拨号模块中的一种；所述外设模块至少包括蓝牙模块、zigbee模块和wifi模块中的一种。

进一步地，当所述监控对象为所述系统指标时，所述根据获得的状态指标判断对应的监控对象是否出现异常，具体包括：

根据获得的CPU使用率、内存占用量或进程数量及状态判断所述系统指标是否出现异常。

进一步地，当所述监控对象为所述功能模块时，所述根据获得的状态指标判断对应的监控对象是否出现异常，具体包括：

根据所述ipv6模块是否正常获取IP地址、所述vpn模块是否正常关联或所述wan拨号模块是否正常拨号判断所述功能模块是否出现异常。

进一步地，当所述监控对象为所述wifi模块时，所述根据获得的状态指标判断对应的监控对象是否出现异常，具体包括：

根据获得的收发包数量、内部收发包队列的使用情况或关联客户端数量判断所述wifi模块是否出现异常；

当所述收发包数量在第一预设时间内不发生变化或所述内部收发包队列已满时，判定所述wifi模块已出现异常；

当所述关联客户端数量突变为0且在第二预设时间内不发生变化时，判定所述wifi模块已出现异常；

当所述内部收发包队列的缓存持续增大，且与缓存最大值的差值在预设的缓存阈值范围内时，判定所述wifi模块即将出现异常；

当关联客户端的掉线频率在预设的频率范围内时，判定所述wifi模块即将出现异常。

进一步地，当所述监控对象为所述系统指标时，所述异常恢复规则至少包括重启异常占用CPU的进程、重启网络设备、重启相关进程中的一种；

当所述监控对象为所述功能模块时，所述异常恢复规则至少包括重新加载监控对象、重新初始化及配置监控对象和重新启动监控对象中的一种；

当所述监控对象为所述外设模块时，所述异常恢复规则至少包括调用监控对象预留的接口或命令、重新加载监控对象、重新初始化及配置监控对象、异常参数复位、重新开关监控对象和重新加载驱动中的一种。

进一步地，所述方法还包括：

当任一监控对象在第三预设时间内连续出现相同异常的次数大于预设的次数阈值时，根据预设的系统级异常恢复规则对该监控对象进行异常恢复处理。

为了解决上述技术问题，本发明实施例还提供了一种网络设备的异常处理装置，包括：

轮询监控模块，用于根据预设的时间周期和若干个监控子程序分别轮询若干个监控对象的运行状态，获取相应的状态指标；其中，每个监控子程序对应监控不同的监控对象，每个监控对象对应至少一个状态指标；

异常判断模块，用于根据获得的状态指标判断对应的监控对象是否出现异常；

异常恢复模块，用于当任一监控对象出现异常时，根据预设的异常恢复规则对出现异常的监控对象进行异常恢复处理。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的网络设备的异常处理方法。

本发明实施例还提供了一种网络设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的网络设备的异常处理方法。

与现有技术相比，本发明实施例提供了一种网络设备的异常处理方法、装置、计算机可读存储介质及网络设备，根据预设的时间周期和若干个监控子程序分别轮询若干个监控对象的运行状态，获取相应的状态指标；其中，每个监控子程序对应监控不同的监控对象，每个监控对象对应至少一个状态指标；根据获得的状态指标判断对应的监控对象是否出现异常；当任一监控对象出现异常时，根据预设的异常恢复规则对出现异常的监控对象进行异常恢复处理；从而能够提前判断多种监控对象异常并及时处理，无需在处理每一种异常时均重启整个系统，系统稳定性较好，用户体验较佳。

附图说明

图1是本发明提供的一种网络设备的异常处理方法的一个优选实施例的流程图；

图2是本发明提供的一种网络设备的异常处理装置的一个优选实施例的结构框图；

图3是本发明提供的一种网络设备的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种网络设备的异常处理方法，参见图1所示，是本发明提供的一种网络设备的异常处理方法的一个优选实施例的流程图，所述方法包括步骤S11至步骤S13：

步骤S11、根据预设的时间周期和若干个监控子程序分别轮询若干个监控对象的运行状态，获取相应的状态指标；其中，每个监控子程序对应监控不同的监控对象，每个监控对象对应至少一个状态指标；

步骤S12、根据获得的状态指标判断对应的监控对象是否出现异常；

步骤S13、当任一监控对象出现异常时，根据预设的异常恢复规则对出现异常的监控对象进行异常恢复处理。

具体的，网络设备的每一个监控子程序都对应监控一个监控对象，每一个监控对象都具有至少一个状态指标，不同的监控子程序对应监控不同的监控对象，每一个监控子程序的工作机制基本相同，都是根据预先设置的时间周期(时间周期即轮询频率可以根据不同的监控对象相应调整)定时轮询监控对象的运行状态及各种指标参数，相应获得监控对象的状态指标，再根据获得的状态指标判断对应的监控对象是否出现异常，当判定监控对象出现异常时，根据预先设置的对应的异常恢复规则对出现异常的监控对象进行异常恢复处理，可以理解的，异常恢复之后，重新进入下一次轮询，当判定监控对象没有出现异常时，同样等待进入下一次轮询，继续监控对应的监控对象是否出现异常。

需要说明的是，所有的监控子程序可以通过监控总程序进行统一管理控制，监控总程序负责各个监控子程序的运行，接收各个监控子程序的反馈，监控总程序根据不同的监控对象，运行与之对应的监控子程序，保证监控对象在出现异常时能够进行自我异常恢复，相应的，如果不想监控某个监控对象，监控总程序可以结束对应的监控子程序的运行。

本发明实施例所提供的一种网络设备的异常处理方法，通过对不同的监控对象设置不同的监控子程序，扩大了监控对象的种类和范围，通过轮询机制及异常恢复处理操作，能够提前判断监控对象是否出现异常并及时处理，并且仅针对出现异常的监控对象采用既定的异常恢复规则进行异常恢复处理，无需在处理每一种异常时均重启整个系统，从而使得网络设备能够对外提供稳定的通信服务，系统稳定性较好，也提高了用户体验。

在另一个优选实施例中，所述监控对象至少包括网络设备的系统指标、功能模块和外设模块；所述系统指标至少包括CPU使用率、内存和进程中的一种；所述功能模块至少包括ipv6模块、vpn模块和wan拨号模块中的一种；所述外设模块至少包括蓝牙模块、zigbee模块和wifi模块中的一种。

具体的，结合上述实施例，现有的网络设备，不仅自身系统复杂，而且还包括很多功能模块和外设模块，为了全面监控网络设备的异常情况，可以将网络设备的系统指标、功能模块和外设模块均作为监控对象，其中，系统指标至少包括CPU使用率、内存和进程中的一种，功能模块至少包括ipv6模块、vpn模块和wan拨号模块中的一种，外设模块至少包括蓝牙模块、zigbee模块和wifi模块中的一种。

需要说明的是，监控对象包括但不限于上述对象，网络设备中的IP地址、路由表、以太网模块、传感器等其他对象也可以作为监控对象，本发明实施例中的监控对象仅仅是示例性的说明，并不构成对监控对象的具体限定。

在又一个优选实施例中，当所述监控对象为所述系统指标时，所述根据获得的状态指标判断对应的监控对象是否出现异常，具体包括：

具体的，结合上述实施例，当监控对象为系统指标中的CPU使用率时，可以根据对应的监控子程序轮询获得的CPU使用率判断CPU使用率是否出现异常；当监控对象为系统指标中的内存时，可以根据对应的监控子程序轮询获得的内存占用量判断内存是否出现异常；当监控对象为系统指标中的进程时，可以根据对应的监控子程序轮询获得的进程数量及状态判断该进程是否出现异常。

需要说明的是，对于系统指标，正常下的系统指标和异常下的系统指标是有差别的，可以以此来进行区分，例如，CPU使用率持续达到100％，则是异常状态；内存占用量不断增加，则说明即将进入异常，内存占用量增加到某一系统阀值(系统设定值)，系统则报异常。

在又一个优选实施例中，当所述监控对象为所述功能模块时，所述根据获得的状态指标判断对应的监控对象是否出现异常，具体包括：

具体的，结合上述实施例，当监控对象为功能模块中的ipv6模块时，可以根据ipv6模块是否正常获取IP地址判断ipv6模块是否出现异常；当监控对象为功能模块中的vpn模块时，可以根据vpn模块是否正常关联判断vpn模块是否出现异常；当监控对象为功能模块中的wan拨号模块时，可以根据wan拨号模块是否正常拨号判断wan拨号模块是否出现异常。

需要说明的是，对于功能模块，每个功能模块是有状态指标的，异常判断可以只区分异常和非异常状态，不用区分即将进入异常状态，例如，ipv6模块能够正常获取IP地址则判定ipv6模块是非异常状态，不能够正常获取IP地址则判定ipv6模块是异常状态，其他功能模块同理。

在又一个优选实施例中，当所述监控对象为所述wifi模块时，所述根据获得的状态指标判断对应的监控对象是否出现异常，具体包括：

具体的，结合上述实施例，对于外设模块，其本身是有自己的运行指标的，当监控对象为外设模块中的wifi模块时，状态指标可以是收发包数量、内部收发包队列的使用情况或关联客户端数量等，即可以根据对应的监控子程序轮询获得的收发包数量、内部收发包队列的使用情况或关联客户端数量判断wifi模块是否出现异常；当wifi模块的收发包数量在第一预设时间内不再发生变化或者内部收发包队列已满时，可以判定wifi模块已经处于异常状态；当wifi模块的关联客户端数量突然变为0，并且在第二预设时间内不再发生变化时，可以判定wifi模块已经处于异常状态；当wifi模块的内部收发包队列的缓存不断增大，并且与缓存最大值的差值在预先设置的缓存阈值范围内(即逐渐接近缓存最大值)时，可以预判wifi模块即将进入异常状态；当wifi模块的关联客户端的掉线频率在预先设置的频率范围内(即有客户端不断出现掉线情况)时，可以预判wifi模块即将进入异常状态。

在又一个优选实施例中，当所述监控对象为所述系统指标时，所述异常恢复规则至少包括重启异常占用CPU的进程、重启网络设备、重启相关进程中的一种；

具体的，结合上述实施例，不同的监控对象预先设置了对应的异常恢复规则，对于系统指标，一般属于系统级恢复，对应的异常恢复规则包括但不限于：CPU使用率异常可以重启异常占用CPU的进程，内存异常可以重启网络设备，进程异常可以重启相关进程中；对于功能模块，对应的异常恢复规则包括但不限于重新加载监控对象、重新初始化及配置监控对象和重新启动监控对象；对于外设模块，对应的异常恢复规则包括但不限于调用监控对象预留的接口或命令、重新加载监控对象、重新初始化及配置监控对象、异常参数复位、重新开关监控对象和重新加载驱动。

需要说明的是，异常恢复规则包括但不限于上述规则，也可以通过配置文件的方式更新相应的异常恢复规则，本发明实施例中的异常恢复规则仅仅是示例性的说明，并不构成对异常恢复规则的具体限定。

在又一个优选实施例中，所述方法还包括：

具体的，结合上述实施例，当任意一个监控对象在第三预设时间内连续出现相同异常的次数大于预设的次数阈值(即持续监控到相同异常)时，则认为持续异常无法恢复，对应的监控子程序会根据预先设置的系统级异常恢复规则对该监控对象进行异常恢复处理。

本发明实施例还提供了一种网络设备的异常处理装置，能够实现上述任一实施例所述的网络设备的异常处理方法的所有流程，装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的网络设备的异常处理方法的作用以及实现的技术效果对应相同，这里不再赘述。

参见图2所示，是本发明提供的一种网络设备的异常处理装置的一个优选实施例的结构框图，所述装置包括：

轮询监控模块11，用于根据预设的时间周期和若干个监控子程序分别轮询若干个监控对象的运行状态，获取相应的状态指标；其中，每个监控子程序对应监控不同的监控对象，每个监控对象对应至少一个状态指标；

异常判断模块13，用于根据获得的状态指标判断对应的监控对象是否出现异常；

异常恢复模块13，用于当任一监控对象出现异常时，根据预设的异常恢复规则对出现异常的监控对象进行异常恢复处理。

优选地，所述监控对象至少包括网络设备的系统指标、功能模块和外设模块；所述系统指标至少包括CPU使用率、内存和进程中的一种；所述功能模块至少包括ipv6模块、vpn模块和wan拨号模块中的一种；所述外设模块至少包括蓝牙模块、zigbee模块和wifi模块中的一种。

优选地，当所述监控对象为所述系统指标时，所述异常判断模块13具体包括：

系统异常判断单元，用于根据获得的CPU使用率、内存占用量或进程数量及状态判断所述系统指标是否出现异常。

优选地，当所述监控对象为所述功能模块时，所述异常判断模块13具体包括：

功能异常判断单元，用于根据所述ipv6模块是否正常获取IP地址、所述vpn模块是否正常关联或所述wan拨号模块是否正常拨号判断所述功能模块是否出现异常。

优选地，当所述监控对象为所述wifi模块时，所述异常判断模块13具体包括：

外设异常判断单元，用于根据获得的收发包数量、内部收发包队列的使用情况或关联客户端数量判断所述wifi模块是否出现异常；

第一异常判定单元，用于当所述收发包数量在第一预设时间内不发生变化或所述内部收发包队列已满时，判定所述wifi模块已出现异常；

第二异常判定单元，用于当所述关联客户端数量突变为0且在第二预设时间内不发生变化时，判定所述wifi模块已出现异常；

第三异常判定单元，用于当所述内部收发包队列的缓存持续增大，且与缓存最大值的差值在预设的缓存阈值范围内时，判定所述wifi模块即将出现异常；

第四异常判定单元，用于当关联客户端的掉线频率在预设的频率范围内时，判定所述wifi模块即将出现异常。

优选地，当所述监控对象为所述系统指标时，所述异常恢复规则至少包括重启异常占用CPU的进程、重启网络设备、重启相关进程中的一种；

优选地，所述装置还包括：

连续异常处理模块，用于当任一监控对象在第三预设时间内连续出现相同异常的次数大于预设的次数阈值时，根据预设的系统级异常恢复规则对该监控对象进行异常恢复处理。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的网络设备的异常处理方法。

本发明实施例还提供了一种网络设备，参见图3所示，是本发明提供的一种网络设备的一个优选实施例的结构框图，所述网络设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序，所述处理器10在执行所述计算机程序时实现上述任一实施例所述的网络设备的异常处理方法。

优选地，所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······)，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器10执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述网络设备中的执行过程。

所述处理器10可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器10也可以是任何常规的处理器，所述处理器10是所述网络设备的控制中心，利用各种接口和线路连接所述网络设备的各个部分。

所述存储器20主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器20可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡和闪存卡(Flash Card)等，或所述存储器20也可以是其他易失性固态存储器件。

需要说明的是，上述网络设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图3结构框图仅仅是上述网络设备的示例，并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

综上，本发明实施例所提供的一种网络设备的异常处理方法、装置、计算机可读存储介质及网络设备，具有以下有益效果：

(1)能对网络设备较多的模块或外设进行监控，而不单单是系统指标，可以监控系统参数、功能模块、外设模块等等，通过对不同的监控对象设置不同的监控子程序，扩大了监控对象的种类和范围；

(2)通过轮询机制及异常恢复处理操作，能够提前预判异常并提前恢复，当轮询发现某个模块的状态指标持续恶化，再持续恶化即会导致异常时，提前进行异常恢复，用较小的恢复代价，提前规避模块异常，异常判断及恢复的及时性较高；

(3)当网络设备的某个功能或模块出现异常时，能仅对该异常模块进行异常恢复，无需在处理每一种异常时均重启整个系统，使得网络设备能够对外提供稳定的通信服务，从而在保护系统稳定性的同时，也提高了用户体验；

(4)异常恢复规则可以针对不同的监控对象进行不同的设置，同时也可以通过配置文件的方式进行更新，灵活性较高。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种网络设备的异常处理方法，其特征在于，包括：

根据获得的状态指标判断对应的监控对象是否出现异常；

2.如权利要求1所述的网络设备的异常处理方法，其特征在于，所述监控对象至少包括网络设备的系统指标、功能模块和外设模块；所述系统指标至少包括CPU使用率、内存和进程中的一种；所述功能模块至少包括ipv6模块、vpn模块和wan拨号模块中的一种；所述外设模块至少包括蓝牙模块、zigbee模块和wifi模块中的一种。

3.如权利要求2所述的网络设备的异常处理方法，其特征在于，当所述监控对象为所述系统指标时，所述根据获得的状态指标判断对应的监控对象是否出现异常，具体包括：

4.如权利要求2所述的网络设备的异常处理方法，其特征在于，当所述监控对象为所述功能模块时，所述根据获得的状态指标判断对应的监控对象是否出现异常，具体包括：

5.如权利要求2所述的网络设备的异常处理方法，其特征在于，当所述监控对象为所述wifi模块时，所述根据获得的状态指标判断对应的监控对象是否出现异常，具体包括：

6.如权利要求2所述的网络设备的异常处理方法，其特征在于，当所述监控对象为所述系统指标时，所述异常恢复规则至少包括重启异常占用CPU的进程、重启网络设备、重启相关进程中的一种；

7.如权利要求1～6任一项所述的网络设备的异常处理方法，其特征在于，所述方法还包括：

8.一种网络设备的异常处理装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1～7任一项所述的网络设备的异常处理方法。

10.一种网络设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1～7任一项所述的网络设备的异常处理方法。