CN117234806B - 一种网卡自动重启方法和系统 - Google Patents

一种网卡自动重启方法和系统 Download PDF

Info

Publication number
CN117234806B
CN117234806B CN202311240591.5A CN202311240591A CN117234806B CN 117234806 B CN117234806 B CN 117234806B CN 202311240591 A CN202311240591 A CN 202311240591A CN 117234806 B CN117234806 B CN 117234806B
Authority
CN
China
Prior art keywords
fault
restarting
network card
performance parameters
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311240591.5A
Other languages
English (en)
Other versions
CN117234806A (zh
Inventor
周永红
罗华文
李艳丽
李文泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Lianrui Electronics Co ltd
Original Assignee
Shenzhen Lianrui Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Lianrui Electronics Co ltd filed Critical Shenzhen Lianrui Electronics Co ltd
Priority to CN202311240591.5A priority Critical patent/CN117234806B/zh
Publication of CN117234806A publication Critical patent/CN117234806A/zh
Application granted granted Critical
Publication of CN117234806B publication Critical patent/CN117234806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种网卡自动重启方法和系统,方法包括收集历史数据中网卡故障类型和不同故障类型对应的网卡性能参数,建立网卡故障模型;将故障类型进行等级分类;实时监测网卡性能参数,根据网卡性能参数结合故障模型,判断网卡故障类型;根据故障类型设置重启次数阈值;根据重启次数阈值触发重启;设置重启延迟时间,进行网卡重启,并通过日志对重启事件进行记录;定期针对重启事件进行故障分析,找出导致频繁重启的故障原因;根据原因和对应的性能参数更新故障模型,系统包括故障模型建立模块、实时监测模块、重启设置模块、重启模块和更新模块,通过此方法和系统准确判断故障,根据故障设置重启次数,避免频繁重启。

Description

一种网卡自动重启方法和系统
技术领域
本发明涉及网卡技术领域,特别涉及一种网卡自动重启方法和系统。
背景技术
在计算机网络中,网卡(Network Interface Card,NIC)是必不可少的组件之一,它负责将计算机连接到网络,实现数据的传输和接收。在某些情况下,例如长时间运行或遇到网络故障时,网卡可能会出现故障或性能下降的问题,这时需要对其进行重启以恢复性能或解决故障;传统的网卡重启方法需要通过手动操作来实现,例如在计算机的操作系统中打开设备管理器,找到网卡并右键单击选择“禁用”或“卸载”,然后重新启动计算机,使得操作系统重新检测并配置网卡。这种方法的缺点是操作繁琐,需要人工干预,且在某些情况下可能无法实现,例如远程的计算机网络。因此,研究一种自动重启网卡的方法具有重要意义。随着计算机技术和网络技术的发展,出现了一些自动重启网卡的软件和硬件设备,这些设备通过检测网卡的运行状态,当出现故障或性能下降时,能够自动重启网卡,从而避免了人工干预的繁琐操作,提高了网络的稳定性和可靠性;但是如何判断准确判断故障类型,提高故障诊断的准确性,如何根据故障自适应设置重启次数阈值,避免频繁重启以及如何保证足够的处理时间和故障恢复能力,是要解决的问题。
发明内容
本发明提供了一种网卡自动重启方法和系统,解决如何判断准确判断故障类型,提高故障诊断的准确性,如何根据故障自适应设置重启次数阈值,避免频繁重启,以及如何保证足够的处理时间和故障恢复能力的问题。
本发明提出的一种网卡自动重启方法,所述方法包括:
S1、收集历史数据中网卡故障类型和不同故障类型对应的网卡性能参数,将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,获取差异比较大的性能参数作为不同故障类型下的影响参数;建立网卡故障模型;并将故障类型进行等级分类;
S2、实时监测网卡性能参数,根据网卡性能参数结合故障模型,判断网卡故障类型和等级;
S3、根据故障类型设置重启次数阈值;根据实时的故障情况对重启次数进行动态调整获得调整后的重启次数阈值,根据调整后的重启次数阈值触发重启;
S4、设置重启延迟时间,进行网卡重启,并通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间;
S5、定期针对重启事件进行故障分析,找出导致频繁重启的故障原因;根据原因和对应的性能参数更新故障模型。
进一步的,一种网卡自动重启方法,所述S1包括:
收集历史数据中网卡故障类型;所述网卡故障类型包括驱动程序错误、网络连接问题、网卡物理故障、网络阻塞/拥堵和安全性问题;
将故障类型按照严重程度进行等级分类获得故障等级;所述故障等级包括轻微故障、中等故障、严重故障和紧急故障;
获取不同故障类型下对应的性能参数;所述性能参数包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备本身的工作状态;
获取正常运行时网卡对应的性能参数;
将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,获取差异比较大的性能参数作为不同故障类型下的影响参数;
将不同故障类型下的影响参数按照故障类型分别进行多元回归分析,获得多元回归模型;
根据多元回归模型的输出结果,设置对应影响参数的阈值。
进一步的,一种网卡自动重启方法,所述S2包括:
实时获取网卡性能参数;
将实时监测到的网卡性能参数输入到故障模型中,经过计算和匹配,确定当前的故障类型和故障等级;
如果同一组参数适合多个故障模型;则首先选择严重程度高的故障类型作为当前故障类型;如果对应的严重程度一样,则选择距离故障模型聚类中心最近的故障类型作为最终的故障类型。
进一步的,一种网卡自动重启方法,所述S3包括:
根据不同故障的历史重启次数,设置重启次数初始阈值;其中重启次数初始阈值为历史数据中对应故障的重启次数的均值;
根据故障等级、故障发生的频率以及故障恢复时间调整重启次数阈值;
当性能参数达到所属故障模型的参数阈值时,记一次重启次数,当达到重启次数阈值时,进行自动重启;
如果在未达到重启次数阈值之前,根据性能参数匹配的故障模型等级变高,则按照最新一次的故障等级设定新的重启次数阈值。
进一步的,一种网卡自动重启方法,所述S4包括:
设置重启延迟时间,进行网卡重启;
重启延迟时间为:
Za为历史记录中重启时的平均负载;Zy为当前负载;Da为历史记录中重启时的平均丢包率;Dy为当前系统丢包率;T0同等级故障历史记录延迟时间;同等级故障为满足重启次数阈值过程中出现故障的最高等级;w4和w5为权重;
通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间、故障等级和性能参数。
本发明提出一种网卡自动重启系统,所述系统包括:
故障模型建立模块:收集历史数据中网卡故障类型和不同故障类型对应的网卡性能参数,将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,获取差异比较大的性能参数作为不同故障类型下的影响参数;建立网卡故障模型;并将故障类型进行等级分类
实时监测模块:实时监测网卡性能参数,根据网卡性能参数结合故障模型,判断网卡故障类型和等级;
重启设置模块:根据故障类型设置重启次数阈值;根据实时的故障情况对重启次数进行动态调整获得调整后的重启次数阈值,根据调整后的重启次数阈值触发重启;
重启模块:设置重启延迟时间,进行网卡重启,并通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间;
更新模块:定期针对重启事件进行故障分析,找出导致频繁重启的故障原因;根据原因和对应的性能参数更新故障模型。
进一步的,一种网卡自动重启系统,所述故障模型建立模块包括:
历史数据获取模块:收集历史数据中网卡故障类型;所述网卡故障类型包括驱动程序错误、网络连接问题、网卡物理故障、网络阻塞/拥堵和安全性问题;
故障等级分类模块:将故障类型按照严重程度进行等级分类获得故障等级;所述故障等级包括轻微故障、中等故障、严重故障和紧急故障;
故障对应参数获取模块:获取不同故障类型下对应的性能参数;所述性能参数包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备本身的工作状态;
正常参数获取模块:获取正常运行时网卡对应的性能参数;
参数对比模块:将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,获取差异比较大的性能参数作为不同故障类型下的影响参数;
模型建立模块:将不同故障类型下的影响参数按照故障类型分别进行多元回归分析,获得多元回归模型;
阈值设置模块:根据多元回归模型的输出结果,设置对应影响参数的阈值。
进一步的,一种网卡自动重启系统,所述实时监测模块包括:
性能参数获取模块:实时获取网卡性能参数;
匹配模块:将实时监测到的网卡性能参数输入到故障模型中,经过计算和匹配,确定当前的故障类型和故障等级;
选择模块:如果同一组参数适合多个故障模型;则首先选择严重程度高的故障类型作为当前故障类型;如果对应的严重程度一样,则选择距离故障模型聚类中心最近的故障类型作为最终的故障类型。
进一步的,一种网卡自动重启系统,所述重启设置模块包括:
初始阈值设置模块:根据不同故障的历史重启次数,设置重启次数初始阈值;其中重启次数初始阈值为历史数据中对应故障的重启次数的均值;
阈值调整模块:根据故障等级、故障发生的频率以及故障恢复时间调整重启次数阈值;
重启模块:当性能参数达到所属故障模型的参数阈值时,记一次重启次数,当达到重启次数阈值时,进行自动重启;
动态调整模块:如果在未达到重启次数阈值之前,根据性能参数匹配的故障模型等级变高,则按照最新一次的故障等级设定新的重启次数阈值。
进一步的,一种网卡自动重启系统,所述重启模块包括:
延迟时间设置模块:设置重启延迟时间,进行网卡重启;
重启延迟时间为:
Za为历史记录中重启时的平均负载;Zy为当前负载;Da为历史记录中重启时的平均丢包率;Dy为当前系统丢包率;T0同等级故障历史记录延迟时间;同等级故障为满足重启次数阈值过程中出现故障的最高等级;w4和w5为权重;
日志记录模块:通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间、故障等级和性能参数。
本发明有益效果:通过收集历史数据并建立故障模型,系统可以根据网卡性能参数结合模型来判断网卡的故障类型。这样可以提高故障的检测准确性,快速而准确地发现网卡故障;根据故障类型设置重启次数阈值,并根据阈值触发重启操作。通过设置合适的重启延迟时间,系统可以自动进行网卡重启,减少人工干预,提高故障处理的效率;通过记录重启事件的重启次数和重启时间等信息,系统可以进行定期的故障分析。;通过与正常运行时的性能参数进行对比,可以相对于正常模型来判断差异。这种相对比较能够更好地反映故障引起的性能变化,排除了可能存在的系统噪声或背景差异因素的影响,提高了判定的准确性;该公式的好处和效果在于提供了一种基于差异比较的判定规则,以确定不同故障类型下的影响参数。通过精确判断故障参数、自适应调节阈值和相对参照正常模型,可以增强故障诊断的准确性和灵活性,从而改善自动重启方法的性能和效果。根据历史重启次数设置初始阈值,可以根据过去的经验为每种故障设定一个合理的重启次数阈值。通过根据故障等级、发生频率和恢复时间调整重启次数阈值,可以根据实时的情况对重启次数进行动态调整,以更准确地控制重启操作。这将有效提高故障处理的效率,缩短故障持续时间;通过动态调整重启次数阈值,可以根据故障等级的变化及时调整重启次数的限制。当故障等级从轻微变为中等或严重时,重启次数阈值可以相应减少,从而避免过多的重启操作。这样可以保护系统免受频繁重启的影响,及时查找原因,提高系统的稳定性和可靠性;根据性能参数匹配的故障模型等级变化时,根据最新的故障等级设定新的重启次数阈值。这种灵活性使得系统能够快速适应各种故障情况,并根据不同故障等级采取相应的处理措施,提高了系统的自适应性和灵活性。
附图说明
图1为本发明所述一种网卡自动重启方法示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本实施例一种网卡自动重启方法,所述方法包括:
S1、收集历史数据中网卡故障类型和不同故障类型对应的网卡性能参数,将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,获取差异比较大的性能参数作为不同故障类型下的影响参数;建立网卡故障模型;并将故障类型进行等级分类;
S2、实时监测网卡性能参数,根据网卡性能参数结合故障模型,判断网卡故障类型和等级;
S3、根据故障类型设置重启次数阈值;根据实时的故障情况对重启次数进行动态调整获得调整后的重启次数阈值,根据调整后的重启次数阈值触发重启;
S4、设置重启延迟时间,进行网卡重启,并通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间;
S5、定期针对重启事件进行故障分析,找出导致频繁重启的故障原因;根据原因和对应的性能参数更新故障模型;
其中故障包括:
连接故障:包括无法连接、断开连接、连接丢失等情况;这种故障类型可以通过检测网卡的连接状态来判断。
传输故障:包括数据传输错误、传输延迟过高、丢包率过高等情况;可以通过监测吞吐量、延迟和丢包率等指标来判断;
性能下降:包括网速变慢、吞吐量下降、响应时间延长等情况;可以通过比较网卡的性能指标和历史数据来判断;
设备故障:包括硬件故障、固件问题、驱动程序错误等情况;这种故障类型可能需要进一步的诊断和排除;
资源限制:包括带宽限制、内存不足等情况。可以通过检查系统资源使用情况和网卡配置来判断。
故障等级包括轻微故障、中等故障、严重故障和紧急故障。
上述技术方案的工作原理为:
1)收集历史数据建立故障模型
收集历史数据中的网卡故障类型和对应的性能参数;
基于这些数据,建立网卡故障模型,并将故障类型进行等级分类。
2)实时监测网卡性能参数并判断故障类型
实时监测网卡的性能参数;
将实时获取的性能参数与故障模型进行比对,以判断当前网卡的故障类型。
3)根据故障类型设置重启次数阈值
根据判断得到的故障类型,设置对应故障类型的重启次数阈值。
重启次数阈值指定了在达到该次数时可以进行自动重启。
4)设置重启延迟时间并进行网卡重启
根据设置的重启次数阈值,在达到阈值时进行网卡重启。
设置合适的重启延迟时间,确保在重启之前给系统足够的时间处理问题;
通过记录日志,记录重启事件的重启次数和重启时间。
5)定期进行故障分析和更新故障模型
定期对重启事件进行分析,找出导致频繁重启的故障原因。
基于分析结果,更新故障模型,更新故障类型和对应的性能参数。
这样可以不断改进故障模型,提高判断准确度和系统稳定性。
上述技术方案的效果为:通过收集历史数据并建立故障模型,系统可以根据网卡性能参数结合模型来判断网卡的故障类型。这样可以提高故障的检测准确性,快速而准确地发现网卡故障;根据故障类型设置重启次数阈值,并根据阈值触发重启操作。通过设置合适的重启延迟时间,系统可以自动进行网卡重启,减少人工干预,提高故障处理的效率;通过记录重启事件的重启次数和重启时间等信息,系统可以进行定期的故障分析。通过分析重启事件,找出导致频繁重启的故障原因,从而改进故障模型和优化系统性能;该方法可以根据实时监测的网卡性能参数和故障模型,及时发现并处理网卡故障。通过自动重启和故障分析,可以降低故障对系统的影响,提高系统的稳定性和可用性;自动化的故障检测、重启和分析过程减少了对人工的依赖,并降低了维护和管理系统所需的成本和工作量。
总体而言,这种网卡自动重启方法可以提高故障处理的效率和准确性,增强系统的稳定性和可用性,同时降低了对人工的依赖和成本。
本实施例一种网卡自动重启方法,所述S1包括:
收集历史数据中多种网卡故障类型;所述网卡故障类型包括驱动程序错误、网络连接问题、网卡物理故障、网络阻塞/拥堵和安全性问题;
将故障类型按照严重程度进行等级分类获得故障等级;所述故障等级包括轻微故障、中等故障、严重故障和紧急故障;
获取不同故障类型下对应的性能参数;所述性能参数包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备本身的工作状态;所述网卡设备本身的工作状态包括温度和湿度;所述故障指标可以通过实时监测网卡性能,或者从系统日志中获取;例如,如果数据表明连接状态为断开,则标注为连接故障;如果数据表明丢包率过高,则标注为传输故障等;通过实验数据、实时监测网卡性能或从系统日志中获取数据,记录正常运行时和不同故障模型下的性能参数;这些参数可以包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备温度和湿度等;
获取正常运行时网卡对应的性能参数;
将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,获取差异比较大的性能参数作为不同故障类型下的影响参数;
其中差异比较大的判定规则为:
其中,Nza为正常模型是某性能参数的均值;Nga为某故障模式下对应的性能参数的均值;σz为正常模型是某性能参数的标准差;σg为某故障模式下对应的性能参数的标准差;α为调节系数,范围为(0,1),与故障的严重程度相关,故障越严重α值越小;
将不同故障类型下的影响参数按照故障类型分别进行多元回归分析,获得多元回归模型;通过交叉验证等方法来验证模型的拟合效果和准确性;
根据多元回归模型中参数的系数确定此参数对此故障影响的程度;系数越大表示该参数对故障等级的影响越大;
根据多元回归模型的输出结果,设置对应影响参数的阈值;包括:
确定阈值范围:根据多元回归模型的输出结果,可以获得每个影响参数的预测值。根据实际需求和故障类型的严重程度,确定每个参数的合理阈值范围。
考虑误差范围:考虑模型的预测误差范围,可以在设定阈值时给予一定的容错空间,以确保系统的稳定性和准确性。
动态调整阈值:阈值的设置可以根据实际情况进行动态调整。例如,如果在实际运行过程中发现误报较多或漏报较多,可以适当调整阈值,以达到更好的性能。
定期评估和更新多元回归模型,以确保其适应性和准确性。
上述技术方案的工作原理为:通过收集历史数据,包括驱动程序错误、网络连接问题、网卡物理故障、网络阻塞/拥堵和安全性问题等多种网卡故障类型;根据故障类型的严重程度进行等级分类,例如轻微故障、中等故障、严重故障和紧急故障等;针对每种故障类型,获取与之相关的性能参数。这些性能参数可以包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备本身的工作状态,如温度和湿度等;记录正常运行时和不同故障模型下的性能参数:通过实时监测网卡性能或从系统日志中获取数据,记录正常运行时和各种故障模型下的性能参数;比较不同故障模型下的性能参数与正常运行时的差异:将不同故障类型下的性能参数与正常运行时的性能参数进行对比,找出差异比较大的性能参数作为不同故障类型下的影响参数。通过差异比较大的判定规则(如差值大于阈值),确定影响参数;将不同故障类型下的影响参数按照故障类型进行多元回归分析,得到多元回归模型。通过交叉验证等方法验证模型的拟合效果和准确性;根据多元回归模型中参数的系数,确定每个参数对故障等级的影响程度。系数越大表示参数对故障等级的影响越大。根据多元回归模型的输出结果,设置每个影响参数的阈值。当某个参数超过阈值时,可以判断该故障等级存在。通过以上步骤,系统可以根据实时获取的网卡性能参数与历史数据建立故障模型,并根据模型判断当前网卡的故障类型和等级。然后,根据设定的阈值触发自动重启操作,提高网卡故障的处理效率和准确性。
上述技术方案的效果为:通过对比不同故障类型下的性能参数与正常运行时的性能参数,获取差异较大的性能参数作为影响参数。这样可以更准确地判断网卡故障的类型和严重程度,使得自动重启操作更精准有效。通过多元回归分析,建立了故障模型,并根据模型中参数的系数确定了各个参数对故障等级的影响程度。这有助于提高故障诊断的准确性,确保只在必要的情况下进行自动重启;通过交叉验证等方法验证多元回归模型的拟合效果和准确性,确保模型能够准确地反映不同参数对故障影响的程度,提高了方法的可验证性。精确判定故障参数:通过计算正常模型和故障模式下性能参数的均值差异,并结合标准差的加权平均,可以更准确地确定差异较大的性能参数。这有助于精确地识别出不同故障类型下的影响参数,提高故障诊断的准确性。通过调节系数α,公式可以根据故障的严重程度自适应地调节差异判定阈值。这使得判定阈值具有灵活性和可调节性,可以适应不同故障情况,提高判定的准确性;通过与正常运行时的性能参数进行对比,可以相对于正常模型来判断差异。这种相对比较能够更好地反映故障引起的性能变化,排除了可能存在的系统噪声或背景差异因素的影响,提高了判定的准确性;该公式的好处和效果在于提供了一种基于差异比较的判定规则,以确定不同故障类型下的影响参数。通过精确判断故障参数、自适应调节阈值和相对参照正常模型,可以增强故障诊断的准确性和灵活性,从而改善自动重启方法的性能和效果。
总体而言,该步骤通过建立多元回归模型,确定影响参数和设定阈值,提高了自动重启方法的准确性和灵活性,从而有效地解决网卡故障,并降低了故障对网络运行的影响。
本实施例一种网卡自动重启方法,所述S2包括:
实时获取网卡性能参数;
将实时监测到的网卡性能参数输入到故障模型中,经过计算和匹配,确定当前的故障类型和故障等级;
如果同一组参数适合多个故障模型;则首先选择严重程度高的故障类型作为当前故障类型;如果对应的严重程度一样,则选择距离故障模型聚类中心最近的故障类型作为最终的故障类型;例如网网络延迟和丢包率,这两个故障类型都会受到网络延迟和丢包率的影响,即这两个参数在两个故障类型中都是有意义的。
上述技术方案的工作原理为:系统会实时监测和获取网卡的性能参数,包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备的温度和湿度等;实时获取的网卡性能参数将被输入到预先建立的故障模型中。故障模型可以是基于历史数据训练得到的机器学习模型、规则模型或其他算法模型。通过计算和匹配,故障模型将确定当前的故障类型和故障等级;在某些情况下,可能存在多个故障模型适用于同一组性能参数。为了选择最合适的故障类型,首先会比较不同故障类型之间的严重程度。如果某个故障类型的严重程度更高,则选择该故障类型作为当前的故障类型。如果某些故障类型具有相同的严重程度,则会进一步考虑距离故障模型聚类中心的距离。选择距离故障模型聚类中心最近的故障类型作为最终的故障类型。
通过以上步骤,该网卡自动重启方法能够实时获取网卡性能参数并通过故障模型进行计算和匹配,确定当前的故障类型和故障等级。同时,对于同一组适合多个故障模型的情况,通过比较严重程度和距离故障模型聚类中心的距离,选择最合适的故障类型。这样能够更准确地判断网卡的故障情况,为后续的自动重启操作提供准确的依据。
上述技术方案的效果为:通过将实时获取的网卡性能参数输入到故障模型中进行计算和匹配,可以准确地确定当前的故障类型和故障等级。这使得系统能够及时、精确地了解网卡的故障情况,为后续的处理措施提供有效的依据;在同一组参数适用多个故障模型的情况下,该方法优先选择严重程度更高的故障类型作为当前的故障类型。这样可以确保更加严重的故障能够被及时处理。而在多个故障类型具有相同严重程度的情况下,选择距离故障模型聚类中心最近的故障类型作为最终的故障类型。这样能够更加准确地判断出当前的故障类型,避免了误判或不确定性;过实时获取网卡性能参数并快速识别故障类型和等级,该方法可以及时采取适当的处理措施,如自动重启网卡,以尽快恢复正常的网络连接。同时,通过准确识别故障类型,系统能够针对不同类型的故障采取相应的处理策略,提高故障处理的准确性和效率;总体而言,该网卡自动重启方法能够准确识别故障类型和等级,并解决多个故障模型适用的情况下的选择问题。这样可以提高故障处理的效率和准确性,保证网络系统的稳定性和可靠性。
本实施例一种网卡自动重启方法,所述S3包括:
根据不同故障的历史重启次数,设置重启次数初始阈值;其中重启次数初始阈值为历史数据中对应故障的重启次数的均值;此处的重启次数为重启一定次数后问题得到解决对应的重启次数;
根据故障等级、故障发生的频率以及故障恢复时间调整重启次数阈值;
所述重启次数调整阈值为:
其中,Qy为针对某种故障的重启次数调整阈值,向上取整,Qa为对应故障初始重启次数阈值;Fa为历史记录中同类故障的发生频率;F为实时监测中获取的对应故障的发生频率,Ta为历史记录中对应故障的恢复时间均值;T为实时监测中获取的对应故障的恢复时间;α为故障等级对应的调节系数,范围为(0,1),w1、w2和w3为权重,范围为(0,1);
当性能参数达到所属故障模型的参数阈值时,记一次重启次数,当达到重启次数阈值时,进行自动重启;
如果在未达到重启次数阈值之前,根据性能参数匹配的故障模型等级变高,则按照最新一次的故障等级设定新的重启次数阈值;例如第一次重启次数计数时故障等级为轻微故障;重启次数阈值为5,而第二次计数重启次数计数时,故障等级变为中等故障,重启次数阈值为4,则按照4作为新的重启次数阈值,按照这个阈值,还剩下2次计数,如果第三次计数时故障变为严重故障,而严重故障的重启次数阈值为3,则直接进行重启;如果第三次计数时故障又变成了轻微故障,则还是按照中等故障的重启次数阈值进行重启;
通过分析系统的错误日志和事件记录,记录故障发生的时间、类型和频率。通过统计和分析这些记录,可以了解系统的故障频率;
使用监控工具来监测系统的运行状态,包括网络连接、硬件状况、性能指标等。监控系统可以实时检测故障发生的频率和持续时间;
收集用户的反馈和投诉,了解他们经历的故障情况和频率。用户的反馈可以作为评估系统稳定性的参考依据;
在定义频繁故障时,可以根据系统的特点和实际情况进行判断;一般来说,如果系统在一个短时间内多次发生相同类型的故障,可能可以认为是频繁故障;具体的定义可以根据统计数据进行调整,例如每天、每周或每月发生多少次故障可以被视为频繁。
上述技术方案的工作原理为:根据历史数据中不同故障的重启次数,计算对应故障的重启次数均值,并将该值设为初始的重启次数阈值。这个阈值用于判断何时触发自动重启操作。通过一系列计算,根据故障等级、故障发生频率和故障恢复时间等因素来调整重启次数阈值。其中,当实时监测中获取的性能参数达到所属故障模型的参数阈值时,记录一次重启次数。当重启次数达到重启次数阈值时,进行自动重启操作;动态调整重启次数阈值,如果在未达到重启次数阈值之前,根据性能参数匹配的故障模型等级变高,则按照最新一次的故障等级设置新的重启次数阈值。例如,第一次重启次数计数时故障等级为轻微故障,重启次数阈值为5;而第二次计数重启次数计数时,故障等级变为中等故障,重启次数阈值为4。然后按照4作为新的重启次数阈值,还剩下2次计数。如果第三次计数时故障变为严重故障,而严重故障的重启次数阈值为3,则直接进行重启。如果第三次计数时故障又变回了轻微故障,则仍按照中等故障的重启次数阈值进行重启。
上述技术方案的效果为:根据历史重启次数设置初始阈值,可以根据过去的经验为每种故障设定一个合理的重启次数阈值。通过根据故障等级、发生频率和恢复时间调整重启次数阈值,可以根据实时的情况对重启次数进行动态调整,以更准确地控制重启操作。这将有效提高故障处理的效率,缩短故障持续时间;通过动态调整重启次数阈值,可以根据故障等级的变化及时调整重启次数的限制。当故障等级从轻微变为中等或严重时,重启次数阈值可以相应减少,从而避免过多的重启操作。这样可以保护系统免受频繁重启的影响,及时查找原因,提高系统的稳定性和可靠性;根据性能参数匹配的故障模型等级变化时,根据最新的故障等级设定新的重启次数阈值。这种灵活性使得系统能够快速适应各种故障情况,并根据不同故障等级采取相应的处理措施,提高了系统的自适应性和灵活性。当性能参数达到所属故障模型的参数阈值时,自动记一次重启次数,并在达到重启次数阈值时进行自动重启。这种自动化操作减少了人工干预的需要,提高了操作的便捷性和效率。该公式综合考虑了故障等级、发生频率和恢复时间等多个因素,以动态调整重启次数阈值。这样可以更全面地评估故障情况,避免单一指标的不足,提高对故障处理的准确性。通过设置不同权重w1、w2和w3,可以平衡故障等级、发生频率和恢复时间对于重启次数阈值的影响程度。这样可以根据具体需求调整权重,使其更符合实际情况,提高算法的可定制性和适应性。引入故障等级对应的调节系数α,可以根据故障等级的不同调节重启次数阈值的变化;当故障等级较低时,调节系数可以接近于1,增加对重启次数阈值的调整幅度;而当故障等级较高时,调节系数可以接近于0,降低对重启次数阈值的调整幅度。这样可以根据故障等级的严重程度灵活调节重启次数,提高处理效果。公式中的历史记录和实时监测使得重启次数阈值能够根据过去的故障情况和当前的实际监测数据进行调整。这样可以更准确地反映当前故障发生的频率和恢复的时间,避免过于依赖静态设置的阈值,提高算法的实用性和适应性;综上所述,这种基于多个因素的重启次数调整公式可以更全面、准确地调整重启次数阈值,平衡不同影响因素,适应不同故障情况,提高重启方法的效果和灵活性。
综上所述,该网卡自动重启方法可以有效提高故障处理效率,避免过多重启,灵活适应不同故障模型,并实现自动化操作。这将提升系统的稳定性和可靠性,降低故障对系统正常运行的影响。
本实施例一种网卡自动重启方法,所述S4包括:
设置重启延迟时间,进行网卡重启;
重启延迟时间为:
Za为历史记录中重启时的平均负载;Zy为当前负载;Da为历史记录中重启时的平均丢包率;Dy为当前系统丢包率;T0同等级故障历史记录延迟时间;同等级故障为满足重启次数阈值过程中出现故障的最高等级;w4和w5为权重,范围为(0,1);
通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间、故障等级和性能参数。
上述技术方案的工作原理为:基于历史记录中的负载和丢包率等信息,结合当前系统的状态,在适当的时机对网卡进行自动重启。通过动态调整重启延迟时间,并记录重启事件,可以使系统在故障发生时具备自我修复的能力,并提供详细的重启历史信息,方便后续分析和优化。权重参数w4和w5可以根据实际需求来调整,以平衡负载和丢包率对重启决策的影响。
上述技术方案的效果为:通过设置重启延迟时间并进行网卡重启,该方法可以自动处理网卡故障。不需要手动干预或等待人工处理,有助于提高系统的可用性和稳定性;通过考虑历史记录中的重启时平均负载和丢包率,以及当前系统的负载和丢包率,使用权重参数w4和w5进行计算,确定重启延迟时间T。这种基于历史记录的计算方式可以更好地适应系统的实际情况,提高重启决策的准确性和灵活性;通过设定重启次数阈值和考虑历史记录中的故障等级最高值,只有当同等级故障的重启次数达到要求时,才会执行重启操作。这样确保了对于频繁出现的高级别故障进行及时处理,提高了系统对于重要故障的响应效率;由于只有达到故障等级要求的重启次数才会触发重启,对于低级别故障不会进行过度的重启干预。这样避免了无谓的系统重启,减少了对正常系统运行的干扰,提高了系统的稳定性和可用性;通过基于重启次数阈值和故障等级的设定,重启方法能够更加智能地判断何时进行网卡重启。这种优化决策能力有助于提高故障处理的精准度和有效性,减少系统中断时间,提高了系统的可靠性;通过记录重启次数、重启时间、故障等级和性能参数等重启事件信息,可以为后续故障排查和系统性能优化提供有价值的参考。日志记录也有助于及时发现重启问题和监控系统运行状态。延迟时间公式综合考虑了历史记录中重启时的平均负载、当前负载、历史记录中重启时的平均丢包率和当前系统丢包率等多个因素。通过权衡这些因素,可以更准确地评估网络状态,并调整重启延迟时间。公式中的权重(w4和w5)用于平衡负载和丢包率对重启延迟时间的影响程度。通过调整权重,可以根据具体需求和情况灵活地调节延迟时间,使其更符合实际情况。公式中引入了历史记录中的平均负载和平均丢包率,以及当前系统的负载和丢包率。这样可以综合考虑过去的经验和当前的状态,提高对网络故障的判断准确性,避免仅依赖静态设置的延迟时间。公式中的最高等级故障被用作计算满足重启次数阈值的过程中出现故障的最高等级。这样可以根据最严重的故障情况来调整延迟时间,以保证足够的处理时间和故障恢复能力。综上所述,基于历史记录和当前状态的重启延迟时间调整公式可以综合考虑多个因素,动态调节延迟时间,提高对网络故障的判断准确性,确保给予故障适当的处理时间,从而提高网络的稳定性和性能表现。
本实施例一种网卡自动重启系统,所述系统包括:
故障模型建立模块:收集历史数据中网卡故障类型和不同故障类型对应的网卡性能参数,将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,获取差异比较大的性能参数作为不同故障类型下的影响参数;建立网卡故障模型;并将故障类型进行等级分类
实时监测模块:实时监测网卡性能参数,根据网卡性能参数结合故障模型,判断网卡故障类型和等级;
重启设置模块:根据故障类型设置重启次数阈值;根据实时的故障情况对重启次数进行动态调整获得调整后的重启次数阈值,根据调整后的重启次数阈值触发重启;
重启模块:设置重启延迟时间,进行网卡重启,并通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间;
更新模块:定期针对重启事件进行故障分析,找出导致频繁重启的故障原因;根据原因和对应的性能参数更新故障模型。
上述技术方案的工作原理为:
1)收集历史数据建立故障模型
收集历史数据中的网卡故障类型和对应的性能参数;
基于这些数据,建立网卡故障模型,并将故障类型进行等级分类。
2)实时监测网卡性能参数并判断故障类型
实时监测网卡的性能参数;
将实时获取的性能参数与故障模型进行比对,以判断当前网卡的故障类型。
3)根据故障类型设置重启次数阈值
根据判断得到的故障类型,设置对应故障类型的重启次数阈值。
重启次数阈值指定了在达到该次数时可以进行自动重启。
4)设置重启延迟时间并进行网卡重启
根据设置的重启次数阈值,在达到阈值时进行网卡重启。
设置合适的重启延迟时间,确保在重启之前给系统足够的时间处理问题;
通过记录日志,记录重启事件的重启次数和重启时间。
5):定期进行故障分析和更新故障模型
定期对重启事件进行分析,找出导致频繁重启的故障原因。
基于分析结果,更新故障模型,更新故障类型和对应的性能参数。
这样可以不断改进故障模型,提高判断准确度和系统稳定性。
上述技术方案的效果为:通过收集历史数据并建立故障模型,系统可以根据网卡性能参数结合模型来判断网卡的故障类型。这样可以提高故障的检测准确性,快速而准确地发现网卡故障;根据故障类型设置重启次数阈值,并根据阈值触发重启操作。通过设置合适的重启延迟时间,系统可以自动进行网卡重启,减少人工干预,提高故障处理的效率;通过记录重启事件的重启次数和重启时间等信息,系统可以进行定期的故障分析。通过分析重启事件,找出导致频繁重启的故障原因,从而改进故障模型和优化系统性能;该方法可以根据实时监测的网卡性能参数和故障模型,及时发现并处理网卡故障。通过自动重启和故障分析,可以降低故障对系统的影响,提高系统的稳定性和可用性;自动化的故障检测、重启和分析过程减少了对人工的依赖,并降低了维护和管理系统所需的成本和工作量。
总体而言,这种网卡自动重启方法可以提高故障处理的效率和准确性,增强系统的稳定性和可用性,同时降低了对人工的依赖和成本。
本实施例一种网卡自动重启系统,所述故障模型建立模块包括:
历史数据获取模块:收集历史数据中网卡故障类型;所述网卡故障类型包括驱动程序错误、网络连接问题、网卡物理故障、网络阻塞/拥堵和安全性问题;
故障等级分类模块:将故障类型按照严重程度进行等级分类获得故障等级;所述故障等级包括轻微故障、中等故障、严重故障和紧急故障;
故障对应参数获取模块:获取不同故障类型下对应的性能参数;所述性能参数包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备本身的工作状态;所述网卡设备本身的工作状态包括温度和湿度;所述故障指标可以通过实时监测网卡性能,或者从系统日志中获取;例如,如果数据表明连接状态为断开,则标注为连接故障;如果数据表明丢包率过高,则标注为传输故障等;通过实验数据、实时监测网卡性能或从系统日志中获取数据,记录正常运行时和不同故障模型下的性能参数;这些参数可以包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备温度和湿度等;
正常参数获取模块:获取正常运行时网卡对应的性能参数;
参数对比模块:将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,获取差异比较大的性能参数作为不同故障类型下的影响参数;
其中差异比较大的判定规则为:
其中,Nza为正常模型是某性能参数的均值;Nga为某故障模式下对应的性能参数的均值;σz为正常模型是某性能参数的标准差;σg为某故障模式下对应的性能参数的标准差;α为调节系数,范围为(0,1),与故障的严重程度相关,故障越严重α值越小;
模型建立模块:将不同故障类型下的影响参数按照故障类型分别进行多元回归分析,获得多元回归模型;通过交叉验证等方法来验证模型的拟合效果和准确性;
阈值设置模块:根据多元回归模型的输出结果,设置对应影响参数的阈值。
上述技术方案的工作原理为:通过收集历史数据,包括驱动程序错误、网络连接问题、网卡物理故障、网络阻塞/拥堵和安全性问题等多种网卡故障类型;根据故障类型的严重程度进行等级分类,例如轻微故障、中等故障、严重故障和紧急故障等;针对每种故障类型,获取与之相关的性能参数。这些性能参数可以包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备本身的工作状态,如温度和湿度等;记录正常运行时和不同故障模型下的性能参数:通过实时监测网卡性能或从系统日志中获取数据,记录正常运行时和各种故障模型下的性能参数;比较不同故障模型下的性能参数与正常运行时的差异:将不同故障类型下的性能参数与正常运行时的性能参数进行对比,找出差异比较大的性能参数作为不同故障类型下的影响参数。通过差异比较大的判定规则(如差值大于阈值),确定影响参数;将不同故障类型下的影响参数按照故障类型进行多元回归分析,得到多元回归模型。通过交叉验证等方法验证模型的拟合效果和准确性;根据多元回归模型中参数的系数,确定每个参数对故障等级的影响程度。系数越大表示参数对故障等级的影响越大。根据多元回归模型的输出结果,设置每个影响参数的阈值。当某个参数超过阈值时,可以判断该故障等级存在。通过以上步骤,系统可以根据实时获取的网卡性能参数与历史数据建立故障模型,并根据模型判断当前网卡的故障类型和等级。然后,根据设定的阈值触发自动重启操作,提高网卡故障的处理效率和准确性。
上述技术方案的效果为:通过对比不同故障类型下的性能参数与正常运行时的性能参数,获取差异较大的性能参数作为影响参数。这样可以更准确地判断网卡故障的类型和严重程度,使得自动重启操作更精准有效。通过多元回归分析,建立了故障模型,并根据模型中参数的系数确定了各个参数对故障等级的影响程度。这有助于提高故障诊断的准确性,确保只在必要的情况下进行自动重启;通过调节系数α来适应不同故障严重程度的情况。通过交叉验证等方法验证多元回归模型的拟合效果和准确性,确保模型能够准确地反映不同参数对故障影响的程度,提高了方法的可验证性。精确判定故障参数:通过计算正常模型和故障模式下性能参数的均值差异,并结合标准差的加权平均,可以更准确地确定差异较大的性能参数。这有助于精确地识别出不同故障类型下的影响参数,提高故障诊断的准确性。通过调节系数α,公式可以根据故障的严重程度自适应地调节差异判定阈值。这使得判定阈值具有灵活性和可调节性,可以适应不同故障情况,提高判定的准确性;通过与正常运行时的性能参数进行对比,可以相对于正常模型来判断差异。这种相对比较能够更好地反映故障引起的性能变化,排除了可能存在的系统噪声或背景差异因素的影响,提高了判定的准确性;该公式的好处和效果在于提供了一种基于差异比较的判定规则,以确定不同故障类型下的影响参数。通过精确判断故障参数、自适应调节阈值和相对参照正常模型,可以增强故障诊断的准确性和灵活性,从而改善自动重启方法的性能和效果。
总体而言,该步骤通过建立多元回归模型,确定影响参数和设定阈值,提高了自动重启方法的准确性和灵活性,从而有效地解决网卡故障,并降低了故障对网络运行的影响。
本实施例一种网卡自动重启系统,所述实时监测模块包括:
性能参数获取模块:实时获取网卡性能参数;
匹配模块:将实时监测到的网卡性能参数输入到故障模型中,经过计算和匹配,确定当前的故障类型和故障等级;
选择模块:如果同一组参数适合多个故障模型;则首先选择严重程度高的故障类型作为当前故障类型;如果对应的严重程度一样,则选择距离故障模型聚类中心最近的故障类型作为最终的故障类型;例如网网络延迟和丢包率,这两个故障类型都会受到网络延迟和丢包率的影响,即这两个参数在两个故障类型中都是有意义的。
上述技术方案的工作原理为:系统会实时监测和获取网卡的性能参数,包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备的温度和湿度等;实时获取的网卡性能参数将被输入到预先建立的故障模型中。故障模型可以是基于历史数据训练得到的机器学习模型、规则模型或其他算法模型。通过计算和匹配,故障模型将确定当前的故障类型和故障等级;在某些情况下,可能存在多个故障模型适用于同一组性能参数。为了选择最合适的故障类型,首先会比较不同故障类型之间的严重程度。如果某个故障类型的严重程度更高,则选择该故障类型作为当前的故障类型。如果某些故障类型具有相同的严重程度,则会进一步考虑距离故障模型聚类中心的距离。选择距离故障模型聚类中心最近的故障类型作为最终的故障类型。
通过以上步骤,该网卡自动重启方法能够实时获取网卡性能参数并通过故障模型进行计算和匹配,确定当前的故障类型和故障等级。同时,对于同一组适合多个故障模型的情况,通过比较严重程度和距离故障模型聚类中心的距离,选择最合适的故障类型。这样能够更准确地判断网卡的故障情况,为后续的自动重启操作提供准确的依据。
上述技术方案的效果为:通过将实时获取的网卡性能参数输入到故障模型中进行计算和匹配,可以准确地确定当前的故障类型和故障等级。这使得系统能够及时、精确地了解网卡的故障情况,为后续的处理措施提供有效的依据;在同一组参数适用多个故障模型的情况下,该方法优先选择严重程度更高的故障类型作为当前的故障类型。这样可以确保更加严重的故障能够被及时处理。而在多个故障类型具有相同严重程度的情况下,选择距离故障模型聚类中心最近的故障类型作为最终的故障类型。这样能够更加准确地判断出当前的故障类型,避免了误判或不确定性;过实时获取网卡性能参数并快速识别故障类型和等级,该方法可以及时采取适当的处理措施,如自动重启网卡,以尽快恢复正常的网络连接。同时,通过准确识别故障类型,系统能够针对不同类型的故障采取相应的处理策略,提高故障处理的准确性和效率;总体而言,该网卡自动重启方法能够准确识别故障类型和等级,并解决多个故障模型适用的情况下的选择问题。这样可以提高故障处理的效率和准确性,保证网络系统的稳定性和可靠性。
本实施例一种网卡自动重启系统,所述重启设置模块包括:
初始阈值设置模块:根据不同故障的历史重启次数,设置重启次数初始阈值;其中重启次数初始阈值为历史数据中对应故障的重启次数的均值;此处的重启次数为重启一定次数后问题得到解决对应的重启次数;
阈值调整模块:根据故障等级、故障发生的频率以及故障恢复时间调整重启次数阈值;
所述重启次数调整阈值为:
其中,Qy为针对某种故障的重启次数调整阈值,向上取整,Qa为对应故障初始重启次数阈值;Fa为历史记录中同类故障的发生频率;F为实时监测中获取的对应故障的发生频率,Ta为历史记录中对应故障的恢复时间均值;T为实时监测中获取的对应故障的恢复时间;α为故障等级对应的调节系数,范围为(0,1),w1、w2和w3为权重,范围为(0,1);
重启模块:当性能参数达到所属故障模型的参数阈值时,记一次重启次数,当达到重启次数阈值时,进行自动重启;
动态调整模块:如果在未达到重启次数阈值之前,根据性能参数匹配的故障模型等级变高,则按照最新一次的故障等级设定新的重启次数阈值;例如第一次重启次数计数时故障等级为轻微故障;重启次数阈值为5,而第二次计数重启次数计数时,故障等级变为中等故障,重启次数阈值为4,则按照4作为新的重启次数阈值,按照这个阈值,还剩下2次计数,如果第三次计数时故障变为严重故障,而严重故障的重启次数阈值为3,则直接进行重启;如果第三次计数时故障又变成了轻微故障,则还是按照中等故障的重启次数阈值进行重启。
上述技术方案的工作原理为:根据历史数据中不同故障的重启次数,计算对应故障的重启次数均值,并将该值设为初始的重启次数阈值。这个阈值用于判断何时触发自动重启操作。通过一系列计算,根据故障等级、故障发生频率和故障恢复时间等因素来调整重启次数阈值。其中,当实时监测中获取的性能参数达到所属故障模型的参数阈值时,记录一次重启次数。当重启次数达到重启次数阈值时,进行自动重启操作;动态调整重启次数阈值,如果在未达到重启次数阈值之前,根据性能参数匹配的故障模型等级变高,则按照最新一次的故障等级设置新的重启次数阈值。例如,第一次重启次数计数时故障等级为轻微故障,重启次数阈值为5;而第二次计数重启次数计数时,故障等级变为中等故障,重启次数阈值为4。然后按照4作为新的重启次数阈值,还剩下2次计数。如果第三次计数时故障变为严重故障,而严重故障的重启次数阈值为3,则直接进行重启。如果第三次计数时故障又变回了轻微故障,则仍按照中等故障的重启次数阈值进行重启。
上述技术方案的效果为:提高故障处理效率:根据历史重启次数设置初始阈值,可以根据过去的经验为每种故障设定一个合理的重启次数阈值。通过根据故障等级、发生频率和恢复时间调整重启次数阈值,可以根据实时的情况对重启次数进行动态调整,以更准确地控制重启操作。这将有效提高故障处理的效率,缩短故障持续时间;通过动态调整重启次数阈值,可以根据故障等级的变化及时调整重启次数的限制。当故障等级从轻微变为中等或严重时,重启次数阈值可以相应减少,从而避免过多的重启操作。这样可以保护系统免受频繁重启的影响,及时查找原因,提高系统的稳定性和可靠性;根据性能参数匹配的故障模型等级变化时,根据最新的故障等级设定新的重启次数阈值。这种灵活性使得系统能够快速适应各种故障情况,并根据不同故障等级采取相应的处理措施,提高了系统的自适应性和灵活性。当性能参数达到所属故障模型的参数阈值时,自动记一次重启次数,并在达到重启次数阈值时进行自动重启。这种自动化操作减少了人工干预的需要,提高了操作的便捷性和效率。该公式综合考虑了故障等级、发生频率和恢复时间等多个因素,以动态调整重启次数阈值。这样可以更全面地评估故障情况,避免单一指标的不足,提高对故障处理的准确性。通过设置不同权重w1、w2和w3,可以平衡故障等级、发生频率和恢复时间对于重启次数阈值的影响程度。这样可以根据具体需求调整权重,使其更符合实际情况,提高算法的可定制性和适应性。引入故障等级对应的调节系数α,可以根据故障等级的不同调节重启次数阈值的变化;当故障等级较低时,调节系数可以接近于1,增加对重启次数阈值的调整幅度;而当故障等级较高时,调节系数可以接近于0,降低对重启次数阈值的调整幅度。这样可以根据故障等级的严重程度灵活调节重启次数,提高处理效果。公式中的历史记录和实时监测使得重启次数阈值能够根据过去的故障情况和当前的实际监测数据进行调整。这样可以更准确地反映当前故障发生的频率和恢复的时间,避免过于依赖静态设置的阈值,提高算法的实用性和适应性;综上所述,这种基于多个因素的重启次数调整公式可以更全面、准确地调整重启次数阈值,平衡不同影响因素,适应不同故障情况,提高重启方法的效果和灵活性。
本实施例一种网卡自动重启系统,所述重启模块包括:
延迟时间设置模块:设置重启延迟时间,进行网卡重启;
重启延迟时间为:
Za为历史记录中重启时的平均负载;Zy为当前负载;Da为历史记录中重启时的平均丢包率;Dy为当前系统丢包率;T0同等级故障历史记录延迟时间;同等级故障为满足重启次数阈值过程中出现故障的最高等级;w4和w5为权重,范围为(0,1);
日志记录模块:通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间、故障等级和性能参数。
上述技术方案的工作原理为:基于历史记录中的负载和丢包率等信息,结合当前系统的状态,在适当的时机对网卡进行自动重启。通过动态调整重启延迟时间,并记录重启事件,可以使系统在故障发生时具备自我修复的能力,并提供详细的重启历史信息,方便后续分析和优化。权重参数w4和w5可以根据实际需求来调整,以平衡负载和丢包率对重启决策的影响。
上述技术方案的效果为:通过设置重启延迟时间并进行网卡重启,该方法可以自动处理网卡故障。不需要手动干预或等待人工处理,有助于提高系统的可用性和稳定性;通过考虑历史记录中的重启时平均负载和丢包率,以及当前系统的负载和丢包率,使用权重参数w4和w5进行计算,确定重启延迟时间T。这种基于历史记录的计算方式可以更好地适应系统的实际情况,提高重启决策的准确性和灵活性;通过设定重启次数阈值和考虑历史记录中的故障等级最高值,只有当同等级故障的重启次数达到要求时,才会执行重启操作。这样确保了对于频繁出现的高级别故障进行及时处理,提高了系统对于重要故障的响应效率;由于只有达到故障等级要求的重启次数才会触发重启,对于低级别故障不会进行过度的重启干预。这样避免了无谓的系统重启,减少了对正常系统运行的干扰,提高了系统的稳定性和可用性;通过基于重启次数阈值和故障等级的设定,重启方法能够更加智能地判断何时进行网卡重启。这种优化决策能力有助于提高故障处理的精准度和有效性,减少系统中断时间,提高了系统的可靠性;通过记录重启次数、重启时间、故障等级和性能参数等重启事件信息,可以为后续故障排查和系统性能优化提供有价值的参考。日志记录也有助于及时发现重启问题和监控系统运行状态。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种网卡自动重启方法,其特征在于,所述方法包括:
S1、收集历史数据中网卡故障类型和不同故障类型对应的网卡性能参数,将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,根据性能参数的差异选取不同故障类型下的影响参数;建立网卡故障模型;并将故障类型进行等级分类;
S2、实时监测网卡性能参数,根据网卡性能参数结合故障模型,判断网卡故障类型和等级;
S3、根据故障类型设置重启次数阈值;根据实时的故障情况对重启次数进行动态调整获得调整后的重启次数阈值,根据调整后的重启次数阈值触发重启;
S4、设置重启延迟时间,进行网卡重启,并通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间;
S5、定期针对重启事件进行故障分析,找出导致频繁重启的故障原因;根据原因和对应的性能参数更新故障模型;
所述S3包括:
根据不同故障的历史重启次数,设置重启次数初始阈值;其中重启次数初始阈值为历史数据中对应故障的重启次数的均值;
根据故障等级、故障发生的频率以及故障恢复时间调整重启次数阈值;
当性能参数达到所属故障模型的参数阈值时,记一次重启次数,当达到重启次数阈值时,进行自动重启;
如果在未达到重启次数阈值之前,根据性能参数匹配的故障模型等级变高,则按照最新一次的故障等级设定新的重启次数阈值;
所述S4包括:
设置重启延迟时间,进行网卡重启;
重启延迟时间为:
Za为历史记录中重启时的平均负载;Zy为当前负载;Da为历史记录中重启时的平均丢包率;Dy为当前系统丢包率;T0同等级故障历史记录延迟时间;同等级故障为满足重启次数阈值过程中出现故障的最高等级;w4和w5为权重;
通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间、故障等级和性能参数。
2.根据权利要求1所述的一种网卡自动重启方法,其特征在于,所述S1包括:
收集历史数据中网卡故障类型;所述网卡故障类型包括驱动程序错误、网络连接问题、网卡物理故障、网络阻塞/拥堵和安全性问题;
将故障类型按照严重程度进行等级分类获得故障等级;所述故障等级包括轻微故障、中等故障、严重故障和紧急故障;
获取不同故障类型下对应的性能参数;所述性能参数包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备本身的工作状态;
获取正常运行时网卡对应的性能参数;
将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,根据性能参数的差异选取不同故障类型下的影响参数;
将不同故障类型下的影响参数按照故障类型分别进行多元回归分析,获得多元回归模型;
根据多元回归模型的输出结果,设置对应影响参数的阈值。
3.根据权利要求1所述的一种网卡自动重启方法,其特征在于,所述S2包括:
实时获取网卡性能参数;
将实时监测到的网卡性能参数输入到故障模型中,经过计算和匹配,确定当前的故障类型和故障等级;
如果同一组参数适合多个故障模型;则首先选择严重程度高的故障类型作为当前故障类型;如果对应的严重程度一样,则选择距离故障模型聚类中心最近的故障类型作为最终的故障类型。
4.一种网卡自动重启系统,其特征在于,所述系统包括:
故障模型建立模块:收集历史数据中网卡故障类型和不同故障类型对应的网卡性能参数,将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,根据性能参数的差异选取不同故障类型下的影响参数;建立网卡故障模型;并将故障类型进行等级分类
实时监测模块:实时监测网卡性能参数,根据网卡性能参数结合故障模型,判断网卡故障类型和等级;
重启设置模块:根据故障类型设置重启次数阈值;根据实时的故障情况对重启次数进行动态调整获得调整后的重启次数阈值,根据调整后的重启次数阈值触发重启;
重启模块:设置重启延迟时间,进行网卡重启,并通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间;
更新模块:定期针对重启事件进行故障分析,找出导致频繁重启的故障原因;根据原因和对应的性能参数更新故障模型;
所述重启设置模块包括:
初始阈值设置模块:根据不同故障的历史重启次数,设置重启次数初始阈值;其中重启次数初始阈值为历史数据中对应故障的重启次数的均值;
阈值调整模块:根据故障等级、故障发生的频率以及故障恢复时间调整重启次数阈值;
重启模块:当性能参数达到所属故障模型的参数阈值时,记一次重启次数,当达到重启次数阈值时,进行自动重启;
动态调整模块:如果在未达到重启次数阈值之前,根据性能参数匹配的故障模型等级变高,则按照最新一次的故障等级设定新的重启次数阈值;
所述重启模块包括:
延迟时间设置模块:设置重启延迟时间,进行网卡重启;
重启延迟时间为:
Za为历史记录中重启时的平均负载;Zy为当前负载;Da为历史记录中重启时的平均丢包率;Dy为当前系统丢包率;T0同等级故障历史记录延迟时间;次数同等级故障为满足重启次数阈值过程中出现故障的最高等级;w4和w5为权重;
日志记录模块:通过日志对重启事件进行记录;所述重启事件包括重启次数、重启时间、故障等级和性能参数。
5.根据权利要求4所述的一种网卡自动重启系统,其特征在于,所述故障模型建立模块包括:
历史数据获取模块:收集历史数据中网卡故障类型;所述网卡故障类型包括驱动程序错误、网络连接问题、网卡物理故障、网络阻塞/拥堵和安全性问题;
故障等级分类模块:将故障类型按照严重程度进行等级分类获得故障等级;所述故障等级包括轻微故障、中等故障、严重故障和紧急故障;
故障对应参数获取模块:获取不同故障类型下对应的性能参数;所述性能参数包括连接状态、网络负载、丢包率、延迟、传输速率以及网卡设备本身的工作状态;
正常参数获取模块:获取正常运行时网卡对应的性能参数;
参数对比模块:将不同故障类型下的性能参数分别与正常运行时的性能参数进行对比,根据性能参数的差异选取不同故障类型下的影响参数;
模型建立模块:将不同故障类型下的影响参数按照故障类型分别进行多元回归分析,获得多元回归模型;
阈值设置模块:根据多元回归模型的输出结果,设置对应影响参数的阈值。
6.根据权利要求4所述的一种网卡自动重启系统,其特征在于,所述实时监测模块包括:
性能参数获取模块:实时获取网卡性能参数;
匹配模块:将实时监测到的网卡性能参数输入到故障模型中,经过计算和匹配,确定当前的故障类型和故障等级;
选择模块:如果同一组参数适合多个故障模型;则首先选择严重程度高的故障类型作为当前故障类型;如果对应的严重程度一样,则选择距离故障模型聚类中心最近的故障类型作为最终的故障类型。
CN202311240591.5A 2023-09-22 2023-09-22 一种网卡自动重启方法和系统 Active CN117234806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311240591.5A CN117234806B (zh) 2023-09-22 2023-09-22 一种网卡自动重启方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311240591.5A CN117234806B (zh) 2023-09-22 2023-09-22 一种网卡自动重启方法和系统

Publications (2)

Publication Number Publication Date
CN117234806A CN117234806A (zh) 2023-12-15
CN117234806B true CN117234806B (zh) 2024-04-30

Family

ID=89092667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311240591.5A Active CN117234806B (zh) 2023-09-22 2023-09-22 一种网卡自动重启方法和系统

Country Status (1)

Country Link
CN (1) CN117234806B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301565A (ja) * 1993-04-09 1994-10-28 Nec Corp サービス制御ノードにおける緊急再開方式
US10602383B1 (en) * 2018-10-15 2020-03-24 Microsoft Technology Licensing Llc Application of machine learning for building predictive models enabling smart fail over between different network media types
CN113691395A (zh) * 2021-08-04 2021-11-23 曙光信息产业(北京)有限公司 网络运维方法、装置、计算机设备和存储介质
CN114244687A (zh) * 2021-12-20 2022-03-25 中国电信集团系统集成有限责任公司 基于AIOps网络故障自愈可操作性判断方法
CN115348147A (zh) * 2021-05-13 2022-11-15 华为技术有限公司 故障分析方法、装置、设备、存储介质和程序产品
CN115580550A (zh) * 2022-09-30 2023-01-06 苏州浪潮智能科技有限公司 网卡稳定性测试方法、装置、设备及存储介质
CN115981984A (zh) * 2023-01-06 2023-04-18 郑州云海信息技术有限公司 一种设备故障检测方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2391132B (en) * 2002-07-19 2005-09-21 Hewlett Packard Co Fault diagnosis in a network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301565A (ja) * 1993-04-09 1994-10-28 Nec Corp サービス制御ノードにおける緊急再開方式
US10602383B1 (en) * 2018-10-15 2020-03-24 Microsoft Technology Licensing Llc Application of machine learning for building predictive models enabling smart fail over between different network media types
CN115348147A (zh) * 2021-05-13 2022-11-15 华为技术有限公司 故障分析方法、装置、设备、存储介质和程序产品
CN113691395A (zh) * 2021-08-04 2021-11-23 曙光信息产业(北京)有限公司 网络运维方法、装置、计算机设备和存储介质
CN114244687A (zh) * 2021-12-20 2022-03-25 中国电信集团系统集成有限责任公司 基于AIOps网络故障自愈可操作性判断方法
CN115580550A (zh) * 2022-09-30 2023-01-06 苏州浪潮智能科技有限公司 网卡稳定性测试方法、装置、设备及存储介质
CN115981984A (zh) * 2023-01-06 2023-04-18 郑州云海信息技术有限公司 一种设备故障检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN117234806A (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
US11500757B2 (en) Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
EP3745272B1 (en) An application performance analyzer and corresponding method
US8086708B2 (en) Automated and adaptive threshold setting
CN109586952B (zh) 服务器扩容方法、装置
US20110276836A1 (en) Performance analysis of applications
US20060293777A1 (en) Automated and adaptive threshold setting
US20070276631A1 (en) Causal ladder mechanism for proactive problem determination, avoidance and recovery
US10447561B2 (en) BFD method and apparatus
US11815988B2 (en) System that automatically responds to event alarms or failures in it management in real time and its operation method
CN114064196A (zh) 用于预测性保障的系统和方法
CN103746829A (zh) 一种基于集群的故障感知系统及其方法
CN111262750B (zh) 一种用于评估基线模型的方法及系统
US8332690B1 (en) Method and apparatus for managing failures in a datacenter
CN111510339A (zh) 一种工业互联网数据监测方法和装置
US20200034222A1 (en) Determination of cause of error state of elements
US20170206125A1 (en) Monitoring system, monitoring device, and monitoring program
CN111814557A (zh) 动作流检测方法、装置、设备及存储介质
CN117234806B (zh) 一种网卡自动重启方法和系统
Nam et al. Virtual machine failure prediction using log analysis
CN106686082B (zh) 存储资源调整方法及管理节点
US20100153543A1 (en) Method and System for Intelligent Management of Performance Measurements In Communication Networks
KR20170108315A (ko) 시스템 장애 모니터링 방법 및 장치
EP3772834A1 (en) A method of predicting the time course of a plurality of data relative to a telephony infrastructure for network function virtualization
WO2024066331A1 (zh) 网络异常检测方法、装置、电子设备及存储介质
CN115686381B (zh) 存储集群运行状态的预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant