CN116708139B - 网络设备故障处理方法、装置、设备以及存储介质 - Google Patents
网络设备故障处理方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN116708139B CN116708139B CN202310899720.5A CN202310899720A CN116708139B CN 116708139 B CN116708139 B CN 116708139B CN 202310899720 A CN202310899720 A CN 202310899720A CN 116708139 B CN116708139 B CN 116708139B
- Authority
- CN
- China
- Prior art keywords
- network equipment
- service processing
- zero clearing
- watchdog counter
- calculation formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 184
- 238000004364 calculation method Methods 0.000 claims abstract description 99
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000004590 computer program Methods 0.000 claims 3
- 230000005856 abnormality Effects 0.000 abstract description 11
- 230000007246 mechanism Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0681—Configuration of triggering conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种网络设备故障处理方法、装置、设备以及存储介质,涉及故障处理技术领域,其方法包括:根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。本发明能够基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,使得网络异常问题能够尽快解决。
Description
技术领域
本发明涉及故障处理技术领域,尤其涉及一种网络设备故障处理方法、装置、设备以及存储介质。
背景技术
网络设备如网络交换机、网络路由器和网络防火墙等,在网络设备工作过程中,其核心功能是接收并处理网络报文。由于软件故障在所难免,所以网络设备也会因为发生故障导致网络中断。为了有效降低在网络设备发生故障时对网络通信的影响,目前市面上的基本操作是采用一种叫做“看门狗”的技术在网络设备出现软件故障后,自动进行重启操作,恢复网络的正常通信。“看门狗”技术的核心是看门狗定时器,看门狗定时器相当于一个计时器,定期检测网络设备的运行状态。一旦检测到网络设备出现软件故障,看门狗定时器会触发自动重启机制,重新启动网络设备,使网络设备回到正常的工作状态,确保网络通信的持续性和稳定性。
上述的“看门狗”技术只针对于单核处理器,而目前绝大多数网络设备的中央处理器都为多核处理器,多核处理器一般分为管理核和业务处理核,并且会配置一个看门狗定时器在一个业务处理核上固定运行或者在多个业务处理核上轮流运行。这种架构存在如下问题:在一个或多个业务处理核发生导致网络异常的故障之后,由于看门狗定时器所在的业务处理核并未发生故障,所以看门狗定时器不会触发自动重启机制,导致长时间的网络异常。
发明内容
本发明的主要目的在于提供一种网络设备故障处理方法、装置、设备以及存储介质,旨在解决使用多核处理器的网络设备的看门狗定时器在网络异常时不触发自动重启机制的问题。
为实现上述目的,本发明提供一种网络设备故障处理方法,所述方法包括:
根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;
基于所述判断结果对所述网络设备进行操作。
可选地,所述根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果的步骤之前包括:
定义所述计算公式,所述计算公式计算所述预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数与所述业务处理核的数量的比值。
可选地,所述定义一个计算公式的步骤之前包括:
获取所述业务处理核对所述看门狗计数器执行清零操作的次数。
可选地,所述获取所述业务处理核对所述看门狗计数器执行清零操作的次数的步骤之前包括:
在每个业务处理核的软件入口设置执行清零操作标志,所述执行清零操作标志包含默认值和非默认值,所述执行清零操作标志的初始值为默认值;
当所述业务处理核正常时,基于预先设定的执行清零操作规则,通过所述业务处理核对所述看门狗计数器执行清零操作和调整所述执行清零操作标志为非默认值;
所述获取所述业务处理核对所述看门狗计数器执行清零操作的次数的步骤包括:
将所述执行清零操作标志为非默认值的个数作为所述业务处理核对所述看门狗计数器执行清零操作的次数。
可选地,所述根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果的步骤包括:
将所述比值与预先设定的看门狗计数器清零阈值进行比较;
若所述比值小于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备出现故障;
若所述比值大于或等于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备正常。
可选地,所述基于所述判断结果对所述网络设备进行操作的步骤包括:
当判断所述网络设备出现故障时,重启所述网络设备;
当判断所述网络设备正常时,通过所述看门狗计数器所在的业务处理核对所述看门狗计数器执行清零操作,并调整所述看门狗计数器所在的业务处理核中的执行清零操作标志为默认值。
可选地,所述在每个业务处理核的软件入口设置执行清零操作标志的步骤之前包括:
通过所述业务处理核处理业务流量。
本发明实施例还提出一种网络设备故障处理装置,所述装置包括:
故障判断模块,根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的业务处理核对看门狗计数器执行清零操作的次数定义得到;
操作模块,基于所述判断结果对所述网络设备进行操作。
本发明实施例还提出一种设备,所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络设备故障处理程序,所述网络设备故障处理程序被所述处理器执行时实现如上所述的网络设备故障处理方法。
本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有网络设备故障处理程序,所述网络设备故障处理程序被处理器执行时实现如上所述的网络设备故障处理方法。
本发明实施例提出的网络设备故障处理方法、装置、设备以及存储介质,根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。本发明实施例根据预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。
附图说明
图1为本发明网络设备故障处理装置所属设备的功能模块示意图;
图2为本发明网络设备故障处理方法一示例性实施例的流程示意图;
图3为本发明网络设备故障处理方法实施例中多核处理器的模型示意图;
图4为本发明网络设备故障处理方法另一示例性实施例的流程示意图;
图5为本发明网络设备故障处理方法另一示例性实施例的流程示意图;
图6为本发明网络设备故障处理方法另一示例性实施例的流程示意图;
图7为本发明网络设备故障处理方法另一示例性实施例的流程示意图;
图8为本发明网络设备故障处理方法另一示例性实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。本发明实施例根据预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。本发明实施例避免了在使用看门狗计数器的网络设备中所有业务处理核出现软件故障但网络设备不复位重启的情况。
本发明实施例涉及的技术术语:
看门狗计数器:看门狗计数器是一个可以在一定时间内被复位的计数器。当看门狗计数器启动后,开始自动计数,经过一定时间,如果网络设备异常,看门狗计数器没有被清零,其溢出就会对中央处理器CPU产生一个复位信号使网络设备重启(俗称“被狗咬”)。当网络设备正常运行时,需要在看门狗计数器允许的时间间隔内对看门狗计数器清零(俗称“喂狗”),不让复位信号产生。
本发明实施例考虑到:前绝大多数网络设备的中央处理器都为多核处理器,多核处理器一般分为管理核和业务处理核,并且会配置一个看门狗定时器在一个业务处理核上固定运行或者在多个业务处理核上轮流运行。这种架构存在如下问题:在一个或多个业务处理核发生导致网络异常的故障之后,由于看门狗定时器所在的业务处理核并未发生故障,所以看门狗定时器不会触发自动重启机制,导致长时间的网络异常。
由此,本发明实施例提出解决方案,通过预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。
具体地,参照图1,图1是本发明网络设备故障处理装置所属设备的功能模块示意图。该网络设备故障处理装置可以为独立于设备的、能够进行数据处理的装置,其可以通过硬件或软件的形式承载于设备上。该设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定设备或服务器等。
在本实施例中,该网络设备故障处理装置所属设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及网络设备故障处理程序;输出模块110可为显示屏等。通信模块140可以包括WIFI模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的网络设备故障处理程序被处理器执行时实现以下步骤:
根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;
基于所述判断结果对所述网络设备进行操作。
进一步地,存储器130中的网络设备故障处理程序被处理器执行时还实现以下步骤:
定义所述计算公式,所述计算公式计算所述预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数与所述业务处理核的数量的比值。
进一步地,存储器130中的网络设备故障处理程序被处理器执行时还实现以下步骤:
获取所述业务处理核对所述看门狗计数器执行清零操作的次数。
进一步地,存储器130中的网络设备故障处理程序被处理器执行时还实现以下步骤:
在每个业务处理核的软件入口设置执行清零操作标志,所述执行清零操作标志包含默认值和非默认值,所述执行清零操作标志的初始值为默认值;
当所述业务处理核正常时,基于预先设定的执行清零操作规则,通过所述业务处理核对所述看门狗计数器执行清零操作和调整所述执行清零操作标志为非默认值;
所述获取所述业务处理核对所述看门狗计数器执行清零操作的次数的步骤包括:
将所述执行清零操作标志为非默认值的个数作为所述业务处理核对所述看门狗计数器执行清零操作的次数。
进一步地,存储器130中的网络设备故障处理程序被处理器执行时还实现以下步骤:
将所述比值与预先设定的看门狗计数器清零阈值进行比较;
若所述比值小于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备出现故障;
若所述比值大于或等于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备正常。
进一步地,存储器130中的网络设备故障处理程序被处理器执行时还实现以下步骤:
当判断所述网络设备出现故障时,重启所述网络设备;
当判断所述网络设备正常时,通过所述看门狗计数器所在的业务处理核对所述看门狗计数器执行清零操作,并调整所述看门狗计数器所在的业务处理核中的执行清零操作标志为默认值。
进一步地,存储器130中的网络设备故障处理程序被处理器执行时还实现以下步骤:
通过所述业务处理核处理业务流量。
本实施例通过上述方案,具体通过根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。本发明实施例根据预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。本发明实施例避免了在使用看门狗计数器的网络设备中所有业务处理核出现软件故障但网络设备不复位重启的情况。
基于上述设备架构但不限于上述架构,提出本发明方法实施例。
本实施例方法的执行主体可以是一种网络设备故障处理装置,该网络设备故障处理装置可以为独立于设备的、能够进行数据处理的装置,其可以通过硬件或软件的形式承载于设备上。
参照图2,图2为本发明网络设备故障处理方法一实施例的流程示意图。所述网络设备的中央处理器包含业务处理核,看门狗计数器在所述业务处理核中轮流运行,所述网络设备故障处理方法包括:
步骤S50,基于预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到。
其中,目前大多数网络设备使用的中央处理器为多核处理器,多核处理器包含管理核和业务处理核。
参照图3所示,图3为本发明网络设备故障处理方法实施例中多核处理器的模型示意图。
其中,多核处理器模型处理网络报文采用并行模式。例如,核0、核1、核2、核3并行处理输入的网络报文。
其中,管理核一般负责管理系统和处理管理流量。其中,管理系统为管理操作系统,负责网络设备的整体控制、配置、监控和管理等任务;处理管理流量主要是指处理一些与网络设备本身相关的流量,如控制报文、状态信息更新等。
其中,业务处理核专门用于处理业务流量,业务流量指的是网络设备处理的实际数据流,如网络包、数据包等。
具体地,作为一种实施方式,基于预先定义的计算公式对所述网络设备进行故障判断,得到判断结果可以是:
首先,定义一条计算公式,该计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到。
然后,根据该计算公式对网络设备进行故障判断,得到判断结果。
具体地,作为一种实施方式,判断结果可以是网络设备出现故障,或者网络设备正常。
步骤S60,基于所述判断结果对所述网络设备进行操作。
具体地,基于网络设备出现故障或者网络设备正常的判断结果,对网络设备执行不同的操作。
本实施例通过上述方案,通过根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。本发明实施例根据预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。本发明实施例避免了在使用看门狗计数器的网络设备中所有业务处理核出现软件故障但网络设备不复位重启的情况。
参照图4,图4为本发明网络设备故障处理方法另一实施例的流程示意图。
基于上述图2所示的实施例,所述步骤S50,基于预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到之前包括:
步骤S40,定义所述计算公式,所述计算公式计算预先获取的业务处理核对看门狗计数器执行清零操作的次数与所述业务处理核的数量的比值。
首先,获取业务处理核对看门狗计数器执行清零操作的次数;
然后,基于业务处理核对所述看门狗计数器执行清零操作的次数定义计算公式。
本实施例通过上述方案,通过根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。其中,定义所述计算公式,所述计算公式计算预先获取的业务处理核对看门狗计数器执行清零操作的次数与所述业务处理核的数量的比值。
本发明实施例根据预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。本发明实施例避免了在使用看门狗计数器的网络设备中所有业务处理核出现软件故障但网络设备不复位重启的情况。其中,通过定义计算公式,对业务处理核对看门狗计数器执行清零操作的次数进行分析,从而为操作网络设备提供数据支持。
参照图5,图5为本发明网络设备故障处理方法另一实施例的流程示意图。
基于上述图4所示的实施例,所述步骤S40,定义所述计算公式,所述计算公式计算预先获取的业务处理核对看门狗计数器执行清零操作的次数与所述业务处理核数量的比值之前包括:
步骤S30,获取所述业务处理核对所述看门狗计数器执行清零操作的次数。
其中,作为一种实施方式,可以在业务处理核的软件入口处设置清零操作标志,该清零操作标志的初始值为默认值,在业务处理核执行清零操作之后,调整该清零操作标志为非默认值。
然后,统计清零操作标志为非默认值的个数,即为业务处理核对所述看门狗计数器执行清零操作的次数。
本实施例通过上述方案,通过根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。其中,定义所述计算公式,所述计算公式计算预先获取的业务处理核对看门狗计数器执行清零操作的次数与所述业务处理核的数量的比值。其中,获取所述业务处理核对所述看门狗计数器执行清零操作的次数。
本发明实施例根据预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。本发明实施例避免了在使用看门狗计数器的网络设备中所有业务处理核出现软件故障但网络设备不复位重启的情况。其中,通过定义计算公式,对业务处理核对看门狗计数器执行清零操作的次数进行分析,从而为操作网络设备提供数据支持。
参照图6,图6为本发明网络设备故障处理方法另一实施例的流程示意图。
基于上述图5所示的实施例,所述步骤S30,获取所述业务处理核对所述看门狗计数器执行清零操作的次数之前包括:
步骤S00,通过所述业务处理核处理业务流量。
步骤S10,在每个业务处理核的软件入口设置执行清零操作标志,所述执行清零操作标志包含默认值和非默认值,所述执行清零操作标志的初始值为默认值。
其中,业务处理核的软件入口是业务处理核在执行业务流量处理任务之前的程序代码位置。在该软件入口处会执行一系列的操作和判断来保证业务处理核的正常工作。
步骤S20,当所述业务处理核正常时,基于预先设定的执行清零操作规则,通过所述业务处理核对所述看门狗计数器执行清零操作和调整所述执行清零操作标志为非默认值。
具体地,作为一种实施方式,预先设定的执行清零操作规则可以为:在业务处理核设定一个定时任务,每隔一段时间就会触发执行清零操作,并且调整执行清零操作标志为非默认值。
步骤S30,获取所述业务处理核对所述看门狗计数器执行清零操作的次数包括:
步骤S31,将所述执行清零操作标志为非默认值的个数作为所述业务处理核对所述看门狗计数器执行清零操作的次数。
本实施例通过上述方案,通过根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。其中,定义所述计算公式,所述计算公式计算预先获取的业务处理核对看门狗计数器执行清零操作的次数与所述业务处理核的数量的比值。其中,获取所述业务处理核对所述看门狗计数器执行清零操作的次数。其中,通过所述业务处理核处理业务流量。其中,在每个业务处理核的软件入口设置执行清零操作标志,所述执行清零操作标志包含默认值和非默认值,所述执行清零操作标志的初始值为默认值;当所述业务处理核正常时,基于预先设定的执行清零操作规则,通过所述业务处理核对所述看门狗计数器执行清零操作和调整所述执行清零操作标志为非默认值。进一步地,将所述执行清零操作标志为非默认值的个数作为所述业务处理核对所述看门狗计数器执行清零操作的次数。
本发明实施例根据预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。本发明实施例避免了在使用看门狗计数器的网络设备中所有业务处理核出现软件故障但网络设备不复位重启的情况。其中,通过定义计算公式,对业务处理核对看门狗计数器执行清零操作的次数进行分析,从而为操作网络设备提供数据支持。其中,本发明实施例基于预先设定的执行清零操作规则对执行清零操作标志进行调整,可以提供统计和监测清零操作的次数的途径,从而可以精确判断业务处理核的状态。
参照图7,图7为本发明网络设备故障处理方法另一实施例的流程示意图。
基于上述图6所示的实施例,所述步骤S50,基于预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到包括:
步骤S51,将所述比值与预先设定的看门狗计数器清零阈值进行比较;
步骤S52,若所述比值小于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备出现故障。
其中,看门狗计数器清零阈值可以根据实际业务对网络中断的敏感度设置,还可以根据实验结果或者业务经验进行设置。
步骤S53,若所述比值大于或等于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备正常。
具体地,作为一种实施方式,可以举例如下:
假设一个多核处理器中有m个核,其中,Core 1到Core m为业务处理核,专门用于处理业务流量;Core 0为管理核,负责管理系统和处理管理流量。
首先,在Core 1到Core m业务处理核的软件入口分别设置执行清零操作标志。
其中,使用p1到pm来表示Core 1到Core m的执行清零操作标志。
其中,p1到pm的初始值为默认值0,表示未执行清零操作。
然后,在网络设备运行过程中,当业务处理核正常时,会基于预先设定的执行清零操作规则,通过所述业务处理核对看门狗计数器执行清零操作和调整所述执行清零操作标志为非默认值1。
然后,计算公式(p1+p2+…+pm)/(m-1+1)。
然后,使用R表示看门狗计数器清零阈值,当(p1+p2+…+pm)/(m-1+1)<R时,判断所述网络设备出现故障,重启网络设备;当(p1+p2+…+pm)/(m-1+1) ≥R时,判断所述网络设备正常,对看门狗计数器执行清零操作和调整所述执行清零操作标志为默认值0。
本实施例通过上述方案,通过根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。其中,定义所述计算公式,所述计算公式计算预先获取的业务处理核对看门狗计数器执行清零操作的次数与所述业务处理核的数量的比值。其中,获取所述业务处理核对所述看门狗计数器执行清零操作的次数。其中,通过所述业务处理核处理业务流量。其中,在每个业务处理核的软件入口设置执行清零操作标志,所述执行清零操作标志包含默认值和非默认值,所述执行清零操作标志的初始值为默认值;当所述业务处理核正常时,基于预先设定的执行清零操作规则,通过所述业务处理核对所述看门狗计数器执行清零操作和调整所述执行清零操作标志为非默认值。进一步地,将所述执行清零操作标志为非默认值的个数作为所述业务处理核对所述看门狗计数器执行清零操作的次数。其中,将所述比值与预先设定的看门狗计数器清零阈值进行比较;若所述比值小于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备出现故障;若所述比值大于或等于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备正常。
本发明实施例根据预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。本发明实施例避免了在使用看门狗计数器的网络设备中所有业务处理核出现软件故障但网络设备不复位重启的情况。其中,通过定义计算公式,对业务处理核对看门狗计数器执行清零操作的次数进行分析,从而为操作网络设备提供数据支持。其中,本发明实施例基于预先设定的执行清零操作规则对执行清零操作标志进行调整,可以提供统计和监测清零操作的次数的途径,从而可以精确判断业务处理核的状态。其中,本发明实施例通过根据预先定义的计算公式对网络设备进行故障判断,并结合预先设定的看门狗计数器清零阈值进行比较,提高了故障判断的准确性、灵活性和响应效率,为网络设备的维护和故障管理提供了有益的支持。本发明实施例可以根据业务对网络中断的敏感度设置对应阈值,将影响降低到最小。并且本发明实施例不必等到所有业务处理核都出现软件故障才复位重启,因为业务处理核软件故障比例超过一定阈值后,整个网络设备的业务处理能力会受到较大影响,所以当业务处理核软件故障比例超过一定阈值之后,对网络设备进行重启,能够将影响降低到最小。
参照图8,图8为本发明网络设备故障处理方法另一实施例的流程示意图。
基于上述图7所示的实施例,所述步骤S60,基于所述判断结果对所述网络设备进行操作包括:
步骤S61,当判断所述网络设备出现故障时,重启所述网络设备。
其中,当基于预先设定的看门狗计数器清零阈值判断网络设备出现故障时,表示网络设备已经无法正常处理业务并且无法恢复,则重启网络设备。
其中,当某个业务处理核发生故障时,不会再进入该业务处理核的软件入口,该业务处理核的执行清零操作标志不会被调整为非默认值。
步骤S62,当判断所述网络设备正常时,通过所述看门狗计数器所在的业务处理核对所述看门狗计数器执行清零操作,并调整所述看门狗计数器所在的业务处理核中的执行清零操作标志为默认值。
其中,当判断所述网络设备正常时,通过所述看门狗计数器所在的业务处理核对所述看门狗计数器执行清零操作,防止看门狗计数器溢出。
本实施例通过上述方案,通过根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。其中,定义所述计算公式,所述计算公式计算预先获取的业务处理核对看门狗计数器执行清零操作的次数与所述业务处理核的数量的比值。其中,获取所述业务处理核对所述看门狗计数器执行清零操作的次数。其中通过所述业务处理核处理业务流量。其中,在每个业务处理核的软件入口设置执行清零操作标志,所述执行清零操作标志包含默认值和非默认值,所述执行清零操作标志的初始值为默认值;当所述业务处理核正常时,基于预先设定的执行清零操作规则,通过所述业务处理核对所述看门狗计数器执行清零操作和调整所述执行清零操作标志为非默认值。进一步地,将所述执行清零操作标志为非默认值的个数作为所述业务处理核对所述看门狗计数器执行清零操作的次数。其中,将所述比值与预先设定的看门狗计数器清零阈值进行比较;若所述比值小于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备出现故障;若所述比值大于或等于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备正常。然后,当判断所述网络设备出现故障时,重启所述网络设备;当判断所述网络设备正常时,通过所述看门狗计数器所在的业务处理核对所述看门狗计数器执行清零操作,并调整所述看门狗计数器所在的业务处理核中的执行清零操作标志为默认值。
本发明实施例根据预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。本发明实施例避免了在使用看门狗计数器的网络设备中所有业务处理核出现软件故障但网络设备不复位重启的情况。其中,通过定义计算公式,对业务处理核对看门狗计数器执行清零操作的次数进行分析,从而为操作网络设备提供数据支持。其中,本发明实施例基于预先设定的执行清零操作规则对执行清零操作标志进行调整,可以提供统计和监测清零操作的次数的途径,从而可以精确判断业务处理核的状态。其中,本发明实施例通过根据预先定义的计算公式对网络设备进行故障判断,并结合预先设定的看门狗计数器清零阈值进行比较,提高了故障判断的准确性、灵活性和响应效率,为网络设备的维护和故障管理提供了有益的支持。本发明实施例可以根据业务对网络中断的敏感度设置对应阈值,将影响降低到最小。并且本发明实施例不必等到所有业务处理核都出现软件故障才复位重启,因为业务处理核软件故障比例超过一定阈值后,整个网络设备的业务处理能力会受到较大影响,所以当业务处理核软件故障比例超过一定阈值之后,对网络设备进行重启,能够将影响降低到最小。
此外,本申请实施例还提出一种网络设备故障处理装置,所述网络设备故障处理装置包括:
故障判断模块,根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的业务处理核对看门狗计数器执行清零操作的次数定义得到;
操作模块,基于所述判断结果对所述网络设备进行操作。
本实施例实现网络设备故障处理的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本申请实施例还提出一种设备,所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络设备故障处理程序,所述网络设备故障处理程序被所述处理器执行时实现如上所述的网络设备故障处理方法的步骤。
由于本网络设备故障处理程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有网络设备故障处理程序,所述网络设备故障处理程序被处理器执行时实现如上所述的网络设备故障处理方法的步骤。
由于本网络设备故障处理程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
本实施例通过上述方案,具体通过根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;基于所述判断结果对所述网络设备进行操作。本发明实施例根据预先定义的计算公式对网络设备进行故障判断,该计算公式是基于业务处理核对看门狗计数器执行清零操作的次数定义得到,所以可以基于业务处理核对看门狗计数器执行清零操作的次数对网络设备进行故障判断,得到判断结果,然后基于判断结果对网络设备进行操作,从而能避免网络设备发生故障而看门狗定时器不触发自动重启机制的情况,使得网络异常问题能够尽快解决。本发明实施例避免了在使用看门狗计数器的网络设备中所有业务处理核出现软件故障但网络设备不复位重启的情况。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种网络设备故障处理方法,其特征在于,所述网络设备的中央处理器包含业务处理核,看门狗计数器在所述业务处理核中轮流运行,所述方法包括以下步骤:
根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数定义得到;
基于所述判断结果对所述网络设备进行操作,具体包括:
当判断所述网络设备出现故障时,重启所述网络设备;
当判断所述网络设备正常时,通过所述看门狗计数器所在的业务处理核对所述看门狗计数器执行清零操作,并调整所述看门狗计数器所在的业务处理核中的执行清零操作标志为默认值。
2.根据权利要求1所述的方法,其特征在于,所述根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果的步骤之前包括:
定义所述计算公式,所述计算公式计算所述预先获取的所述业务处理核对所述看门狗计数器执行清零操作的次数与所述业务处理核的数量的比值。
3.根据权利要求2所述的方法,其特征在于,所述定义一个计算公式的步骤之前包括:
获取所述业务处理核对所述看门狗计数器执行清零操作的次数。
4.根据权利要求3所述的方法,其特征在于,所述获取所述业务处理核对所述看门狗计数器执行清零操作的次数的步骤之前包括:
在每个业务处理核的软件入口设置执行清零操作标志,所述执行清零操作标志包含默认值和非默认值,所述执行清零操作标志的初始值为默认值;
当所述业务处理核正常时,基于预先设定的执行清零操作规则,通过所述业务处理核对所述看门狗计数器执行清零操作和调整所述执行清零操作标志为非默认值;
所述获取所述业务处理核对所述看门狗计数器执行清零操作的次数的步骤包括:
将所述执行清零操作标志为非默认值的个数作为所述业务处理核对所述看门狗计数器执行清零操作的次数。
5.根据权利要求4所述的方法,其特征在于,所述根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果的步骤包括:
将所述比值与预先设定的看门狗计数器清零阈值进行比较;
若所述比值小于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备出现故障;
若所述比值大于或等于所述预先设定的看门狗计数器清零阈值,则判断所述网络设备正常。
6.根据权利要求4所述的方法,其特征在于,所述在每个业务处理核的软件入口设置执行清零操作标志的步骤之前包括:
通过所述业务处理核处理业务流量。
7.一种网络设备故障处理装置,其特征在于,所述装置包括:
故障判断模块,根据预先定义的计算公式对所述网络设备进行故障判断,得到判断结果,所述计算公式是基于预先获取的业务处理核对看门狗计数器执行清零操作的次数定义得到;
操作模块,基于所述判断结果对所述网络设备进行操作,所述操作模块还用于:当判断所述网络设备出现故障时,重启所述网络设备;当判断所述网络设备正常时,通过所述看门狗计数器所在的业务处理核对所述看门狗计数器执行清零操作,并调整所述看门狗计数器所在的业务处理核中的执行清零操作标志为默认值。
8.一种网络设备故障处理设备,其特征在于,所述网络设备故障处理设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-6中任一项所述的网络设备故障处理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的网络设备故障处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310899720.5A CN116708139B (zh) | 2023-07-21 | 2023-07-21 | 网络设备故障处理方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310899720.5A CN116708139B (zh) | 2023-07-21 | 2023-07-21 | 网络设备故障处理方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116708139A CN116708139A (zh) | 2023-09-05 |
CN116708139B true CN116708139B (zh) | 2023-10-20 |
Family
ID=87829512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310899720.5A Active CN116708139B (zh) | 2023-07-21 | 2023-07-21 | 网络设备故障处理方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116708139B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916858A (zh) * | 2006-09-19 | 2007-02-21 | 杭州华为三康技术有限公司 | 多核系统中的监控方法、监控装置以及多核系统 |
CN101458640A (zh) * | 2007-12-14 | 2009-06-17 | 环达电脑(上海)有限公司 | 可监控多线程状态的系统及其监控方法 |
CN101635652A (zh) * | 2009-09-07 | 2010-01-27 | 杭州华三通信技术有限公司 | 多核系统的故障恢复方法和设备 |
CN111984453A (zh) * | 2020-08-26 | 2020-11-24 | 刘情 | 一种基于看门狗网络巡检设备及其使用方法 |
CN113656211A (zh) * | 2021-08-24 | 2021-11-16 | 南方电网数字电网研究院有限公司 | 一种基于双cpu多核系统的看门狗控制方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9201723B2 (en) * | 2011-06-27 | 2015-12-01 | International Business Machines Corporation | Fault handling in a distributed IT environment |
-
2023
- 2023-07-21 CN CN202310899720.5A patent/CN116708139B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1916858A (zh) * | 2006-09-19 | 2007-02-21 | 杭州华为三康技术有限公司 | 多核系统中的监控方法、监控装置以及多核系统 |
CN101458640A (zh) * | 2007-12-14 | 2009-06-17 | 环达电脑(上海)有限公司 | 可监控多线程状态的系统及其监控方法 |
CN101635652A (zh) * | 2009-09-07 | 2010-01-27 | 杭州华三通信技术有限公司 | 多核系统的故障恢复方法和设备 |
CN111984453A (zh) * | 2020-08-26 | 2020-11-24 | 刘情 | 一种基于看门狗网络巡检设备及其使用方法 |
CN113656211A (zh) * | 2021-08-24 | 2021-11-16 | 南方电网数字电网研究院有限公司 | 一种基于双cpu多核系统的看门狗控制方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于看门狗的星载软件抗SEL、SEU保护系统设计;卢东昕, 滕丽娟, 洪炳熔, 高峰;哈尔滨工业大学学报(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116708139A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308252B (zh) | 一种故障定位处理方法及装置 | |
CN108710544B (zh) | 一种数据库系统的进程监控方法及轨道交通综合监控系统 | |
CN101800675B (zh) | 故障监控方法、监控设备及通信系统 | |
EP2983086A1 (en) | System fault detection and processing method, device, and computer readable storage medium | |
CN111104260B (zh) | 服务升级的监测方法、装置、服务器及存储介质 | |
CN109743218B (zh) | 一种服务监控方法、存储介质及终端 | |
CN104301136A (zh) | 故障信息上报及处理的方法及设备 | |
JP5198154B2 (ja) | 障害監視システム及びデバイスと監視装置並びに障害監視方法 | |
CN111176873A (zh) | 一种微服务自动下线方法、装置、计算机设备及存储介质 | |
CN110618864A (zh) | 一种中断任务恢复方法及装置 | |
CN113434327A (zh) | 一种故障处理系统、方法、设备和存储介质 | |
CN113176963A (zh) | 一种PCIe故障自修复方法、装置、设备及可读存储介质 | |
CN113608908B (zh) | 服务器故障处理方法、系统、设备及可读存储介质 | |
CN116708139B (zh) | 网络设备故障处理方法、装置、设备以及存储介质 | |
JPH10214208A (ja) | ソフトウェアの異常監視方式 | |
CN111949421B (zh) | Sdk调用方法、装置、电子设备和计算机可读存储介质 | |
CN113656252A (zh) | 故障定位方法、装置、电子设备以及存储介质 | |
CN111737060A (zh) | 处理组件异常的方法、装置及电子设备 | |
CN107729184B (zh) | 一种系统组件服务自愈方法 | |
CN115495309A (zh) | 共用存储服务器的数据库服务器io处理方法及装置 | |
CN114448504A (zh) | 光模块故障处理方法及电子设备、计算机可读存储介质 | |
JP7211026B2 (ja) | ジョブ管理システム | |
US11734086B2 (en) | Operation-based event suppression | |
CN112600736A (zh) | 一种用于智能网关的远程运维管理系统 | |
CN112311495A (zh) | 运行时长获取方法、装置、通信单元、电控板及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |