CN115333970B - 设备连接稳定性评价方法、装置和计算机设备和存储介质 - Google Patents

设备连接稳定性评价方法、装置和计算机设备和存储介质 Download PDF

Info

Publication number
CN115333970B
CN115333970B CN202210868237.6A CN202210868237A CN115333970B CN 115333970 B CN115333970 B CN 115333970B CN 202210868237 A CN202210868237 A CN 202210868237A CN 115333970 B CN115333970 B CN 115333970B
Authority
CN
China
Prior art keywords
threshold value
target end
target
offline
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210868237.6A
Other languages
English (en)
Other versions
CN115333970A (zh
Inventor
张少华
苑忠科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210868237.6A priority Critical patent/CN115333970B/zh
Publication of CN115333970A publication Critical patent/CN115333970A/zh
Application granted granted Critical
Publication of CN115333970B publication Critical patent/CN115333970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种设备连接稳定性评价方法、装置、计算机设备和存储介质。所述方法包括:检测所述目标端的上报接入信息,判断所述目标端是否初次接入所述主机端;若是,则对该目标端的离线计数值置零;若否,则对该目标端的离线计数值增加1;实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值。采用本方法能够有效评价链路质量,有效识别了不稳定链路,并能及时做故障隔离;而且分为一般连接错误告警和严重连接错误告警,能够方便用户对链路连接稳定性的掌握了解。

Description

设备连接稳定性评价方法、装置和计算机设备和存储介质
技术领域
本申请涉及设备连接稳定性评价技术领域,特别是涉及一种设备连接稳定性评价方法、装置、计算机设备和存储介质。
背景技术
随着网络设备的更新换代以及网络产品规格参数的不断更新升级,各个网络设备厂家之间都在加快推出自己更新、更好的产品。
现在的存储系统也发展为基于PCIE链路,PCIE(peripheral componentinterconnect express)为一种高速串行计算机扩展总线标准,PCIE链路是利用存储控制系统中的PCIE扩展卡与硬盘连接实现,通常PCIE扩展卡连接有NVME卡和SAS卡,NVME为非易失存储器协议,SAS为串行SCSI,串行SCSI(Small Computer System Interface)为小型计算机系统接口。NVME卡接入NVME硬盘,SAS卡接入SAS硬盘。当链路不稳定时,极易对上层业务产生影响。当链路不稳定时,现有相关技术仅仅基于上层业务,做业务重试,并未做有效精准识别链路质量的级别,而且不能及时做有效地故障隔离。
发明内容
基于此,有必要针对上述技术问题,提供一种能够对通信链路质量提供评价,并作出适当故障隔离的设备连接稳定性评价方法、装置、计算机设备和存储介质,从而避免过多的故障导致通信链路质量较低,对上层业务产生不必要的影响。
一方面,提供一种设备连接稳定性评价方法,用于评价目标端(target)接入主机端(initiator)时的连接稳定性,所述方法包括步骤:
检测所述目标端的上报接入信息(login),判断所述目标端是否初次接入所述主机端;若是,则对该目标端的离线(logout)计数值置零;若否,则对该目标端的离线计数值增加1;
实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值。
在其中一个实施例中,所述第一阈值和所述第二阈值均为衰变数值,所述第一阈值和所述第二阈值的衰变速度相同。
在其中一个实施例中,在所述当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警之后,还包括步骤:
当所述目标端的离线计数值从大于第一阈值的数值衰减至第一阈值时,消除一般连接错误告警。
在其中一个实施例中,在所述目标端上报接入信息之后,还包括步骤:
将所述目标端的传输错误计数置零;
当所述目标端离线时,所述目标端向所述主机端上报离线信息。
在其中一个实施例中,在所述将所述目标端的传输错误计数置零之后,还包括步骤:
下发输入/输出指令访问所述目标端,当发送和响应成功时,统计数据传输错误次数;
当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警;当所述数据传输错误次数的计数值等于第四阈值时触发严重数据传输错误告警,并强制剔除所述目标端的连接,其中所述第四阈值大于所述第三阈值。
在其中一个实施例中,所述第三阈值和所述第四阈值均为衰变数值,所述第三阈值和所述第四阈值的衰变速度相同。
在其中一个实施例中,在所述当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警之后,还包括步骤:
当所述数据传输错误次数的计数值从大于第三阈值的数值衰减至第三阈值时,消除一般连接错误告警。
另一方面,本申请还提供了一种设备连接稳定性评价装置,所述装置包括:
检测模块,用于检测目标端的上报接入信息,判断所述目标端是否初次接入主机端;若是,则对该目标端的离线计数值清零;若否,则对该目标端的离线计数值增加1;以及
控制模块,用于实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值。
再一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
检测所述目标端的上报接入信息(login),判断所述目标端是否初次接入所述主机端;若是,则对该目标端的离线(logout)计数值置零;若否,则对该目标端的离线计数值增加1;
实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值。
又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
检测所述目标端的上报接入信息(login),判断所述目标端是否初次接入所述主机端;若是,则对该目标端的离线(logout)计数值置零;若否,则对该目标端的离线计数值增加1;
实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值。
上述设备连接稳定性评价方法、装置、计算机设备和存储介质,通过实时获取所述目标端的离线计数值来进行链路连接稳定性的判断,基于目标端的离线计数值能够有效评价链路质量,有效识别了不稳定链路,并能及时做故障隔离。而且针对目标端的离线计数值的具体情况分为一般连接错误告警和严重连接错误告警,能够方便用户对链路连接稳定性的掌握了解。
附图说明
图1为本申请一个实施例中设备连接稳定性评价方法的应用环境图;
图2为本申请一个实施例中设备连接稳定性评价方法的逻辑图;
图3为本申请实施例1中设备连接稳定性评价方法的流程示意图;
图4为本申请实施例2中设备连接稳定性评价方法的流程示意图;
图5为本申请实施例3中设备连接稳定性评价方法的部分流程示意图;
图6为本申请实施例3中设备连接稳定性评价方法的部分流程示意图;
图7为本申请实施例4中设备连接稳定性评价方法的部分流程示意图;
图8为本申请一个实施例中设备连接稳定性评价装置的结构框图;
图9为本申请一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的设备连接稳定性评价方法,可以应用于如图1所示的应用环境中。其中,硬盘102与存储控制系统101进行电性连接,硬盘102包括NVME硬盘和SAS硬盘等类型,存储控制系统101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,存储控制系统101可以用独立的服务器或者是多个服务器组成的服务器集群来实现。存储控制系统101包括PCIE扩展卡以及连接至PCIE扩展卡上的NVME卡和SAS卡,其中NVME硬盘和SAS硬盘分别对应连接至NVME卡和SAS卡上。其中,NVME为非易失存储器协议,SAS为串行SCSI,串行SCSI(Small Computer System Interface)为小型计算机系统接口。存储控制系统101能接入较大数量存储介质。
如图2所示,为本申请提供的设备连接稳定性评价方法的逻辑图,其中存储控制系统101作为主机端(initiator),且硬盘102作为目标端(target);基于硬盘102与存储控制系统101进行电性连接的连接质量进行评价,主要包含login质量评价A(错误计数)和login质量评价B(logout次数)的内容。
图2中的名词login是存储系统的下行设备已接入并可访问的状态或事件的定义;logout是存储系统的下行设备离线,不可访问的状态或事件的定义。相应的,主机端(initiator)为基于login进行存储协议通信的上行设备;目标端(target)为基于login进行存储协议通信的下行设备。
当硬盘102接入存储控制系统101时上报login,离线时上报logout,实质是有无硬盘102连接至存储控制系统101的信号,因此上报login可定义为上报接入信息,上报logout可定义为上报离线信息,这个接入信息就是存在连接信号,而没有连接信号时则认为是离线信息。因此上报接入信息和上报离线信息就是来区分硬盘102是否连接至存储控制系统101的。
在图2中的流程说明如下:
S1、开始:target尚未接入initiator端;
S2、target接入initiator端,并上报login;
S3、初次login时,对传输错误计数和logout计数均清零。
S4、重新login时,对传输错误计数清零和logout计数加1,表示在target重新接入initiator端时logout报告的计数增加1。
S5、initiator与target端正常IO(输入/输出)交互,此时初步判断为发送和响应成功的连接环境。
S6、因外部故障或其他原因,target端上报logout,initiator端接入的target上报的logout,代表设备离线。
S7、因外部故障或其他原因,initiator端发至的target的一次IO返回错误类型为传输错误,其包含发送失败且返回错误码类型。
S8、login质量评价方法A,其中设置目标端的数据传输错误次数的计数值为实时值a,错误计数告警限制为第三阈值a1,错误计数允许上限值为第四阈值a2。因此在进行设备连接稳定性评价时就会出现以下两种情况:当a等于a1时,触发一般告警;当a等于a2时,触发严重告警,并剔除该target的login,强制剔除所述目标端的连接。
S9、login质量评价方法B,其中设置目标端的离线(logout)计数值为实时值b,离线次数计数告警限制为第一阈值b1,离线次数计数允许上限值为第二阈值b2。因此在进行设备连接稳定性评价时就会出现以下两种情况:当b等于b1时,触发一般告警;当b等于b2时,触发严重告警,并剔除该target的login,强制剔除所述目标端的连接。
S10、故障隔离操作,在出现严重错误时强制剔除target,使其离线;如果质量产生故障级别比较低,可以触发一般告警提示,不会触发强制target离线操作,target仍可有效通信。
S11、结束,当前槽位对应的盘离线并告警,后续人工修复可重复login。
实施例1
在实施例1中,如图3所示,提供了一种设备连接稳定性评价方法,以该方法应用于图1中的存储控制系统101作为主机端(initiator),且硬盘102作为目标端(target)为例进行说明,包括以下步骤:
步骤S101,检测所述目标端的上报接入信息(login),判断所述目标端是否初次接入所述主机端;若是,则对该目标端的离线(logout)计数值置零;若否,则对该目标端的离线计数值增加1。
其中,步骤S101中的名词login是存储系统的下行设备已接入并可访问的状态或事件的定义;logout是存储系统的下行设备离线,不可访问的状态或事件的定义。相应的,主机端(initiator)为基于login进行存储协议通信的上行设备;目标端(target)为基于login进行存储协议通信的下行设备。
具体地,这个步骤实在是检测目标端(target)与主机端(initiator)的连接次数,若接触不良时则会出现多次重复连接的情况,此时通过检测目标端(target)与主机端(initiator)的连接次数就能判断是否连接良好。而每当目标端(target)与主机端(initiator)连接一次就会产生一次离线信息(logout),因此只需统计离线信息(logout)的数量即可进行连接质量的判断。
若所述目标端初次接入所述主机端,则对该目标端的离线(logout)计数值置零,这样就能避免先前数据的干扰,防止数据错误导致的误判。若所述目标端并不是初次接入所述主机端,则判断为目标端重新接入(login)主机端,此时就是不断重连的状态,因此每重新连接一次,就对该目标端的离线计数值增加1。
步骤S102,实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值。
具体参见图2中的login质量评价B(logout次数)内容,其中设置目标端的离线(logout)计数值为实时值b,离线次数计数告警限制为第一阈值b1,离线次数计数允许上限值为第二阈值b2。因此在进行设备连接稳定性评价时就会出现以下两种情况:当b等于b1时,触发一般告警;当b等于b2时,触发严重告警,并剔除该target的login,强制剔除所述目标端的连接。
可理解的是,本实施例图3的步骤对应图2中的S2→S4→S9→S10→S11;其中可默认包含图2中的S1。
上述设备连接稳定性评价方法,通过实时获取所述目标端的离线计数值来进行链路连接稳定性的判断,基于目标端的离线计数值能够有效评价链路质量,有效识别了不稳定链路,并能及时做故障隔离。而且针对目标端的离线计数值的具体情况分为一般连接错误告警和严重连接错误告警,能够方便用户对链路连接稳定性的掌握了解,便于区分实际的链路连接稳定性质量。
实施例2
在实施例2中,如图4所示,提供了一种设备连接稳定性评价方法,包括了实施例1的全部技术特征,其差异在于,在实施例2中还进一步设置了所述第一阈值和所述第二阈值均为衰变数值,所述第一阈值和所述第二阈值的衰变速度相同。
本申请设置衰变数值的方式是为了提升链路连接稳定性质量的评价效率,提升设备连接稳定性评价速度。而设置所述第一阈值和所述第二阈值的衰变速度相同,是为了保障第一阈值b1和第二阈值b2的数值同步变化,避免一般连接错误告警和严重连接错误告警混乱的情况。
本申请进一步设置所述第一阈值和所述第二阈值的衰变速均为每过10分钟衰减50%。即比如第一阈值b1或第二阈值b2的当前值为16,在30分钟后该值衰减为8。
而且本实施中,如图4所示,为了避免发出重复的一般连接错误告警信息,进一步设置在所述当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警之后,还包括步骤S103:当所述目标端的离线计数值从大于第一阈值的数值衰减至第一阈值时,消除一般连接错误告警。
可理解的是,在当所述目标端的离线计数值等于第二阈值时,就直接强制剔除所述目标端的连接,因此不会存在目标端的离线计数值从大于第二阈值的数值衰减至第二阈值的情况。
上述设备连接稳定性评价方法,通过设置与所述目标端的离线计数值相对比判断的第一阈值和第二阈值均为衰变数值,提升了链路连接稳定性质量的评价效率,提升了设备连接稳定性评价速度。
实施例3
在实施例3中,如图5所示,提供了一种设备连接稳定性评价方法,包括实施例1或实施例2中的全部技术特征,其差异在于,在实施例3中,在所述目标端上报接入信息之后,还包括步骤:
步骤S105:将所述目标端的传输错误计数置零;
步骤S106:当所述目标端离线时,所述目标端向所述主机端上报离线信息。
其中将所述目标端的传输错误计数置零的目的是能在后续基于目标端的传输错误计数信息进行设备连接稳定性评价时,保障前面获取的目标端的传输错误计数准确无误,这样就能避免先前数据的干扰,防止数据错误导致的误判。
如图6所示,在本实施例中,在所述将所述目标端的传输错误计数置零步骤S105之后,还包括步骤:
步骤S107,下发输入/输出(IO)指令访问所述目标端,当发送和响应成功时,统计数据传输错误次数;
步骤S108,当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警;当所述数据传输错误次数的计数值等于第四阈值时触发严重数据传输错误告警,并强制剔除所述目标端的连接,其中所述第四阈值大于所述第三阈值。
其中,输入/输出(IO)指令可以理解为initiator与target端的指令访问。
具体参见图2中的login质量评价A(错误计数)内容,其中设置目标端的数据传输错误次数的计数值为实时值a,错误计数告警限制为第三阈值a1,错误计数允许上限值为第四阈值a2。因此在进行设备连接稳定性评价时就会出现以下两种情况:当a等于a1时,触发一般告警;当a等于a2时,触发严重告警,并剔除该target的login,强制剔除所述目标端的连接。
可理解的是,本实施例图6的步骤对应图2中的S2→S3/S4→S5→S7→S9→S10→S11;其中可默认包含图2中的S1。
本实施例中进一步增加了login质量评价A(错误计数)内容,使得其能依据检测目标端(target)与主机端(initiator)的连接状态下的数据传输正确性进行连接质量的评价,避免数据传输错误的情况出现。
而且,本实施例同时包含login质量评价A(错误计数)和login质量评价B(logout次数)的内容,这样不仅能有效评价目标端(target)与主机端(initiator)的连接次数,也可有效评价目标端(target)与主机端(initiator)的数据传输质量。
实施例4
在实施例4中,如图7所示,提供了一种设备连接稳定性评价方法,包括了实施例3的全部技术特征,其差异在于,在实施例4中还进一步设置了所述第三阈值和所述第四阈值均为衰变数值,所述第三阈值和所述第四阈值的衰变速度相同。
本申请设置衰变数值的方式是为了提升链路连接稳定性质量的评价效率,提升设备连接稳定性评价速度。而设置所述第三阈值和所述第四阈值的衰变速度相同,是为了保障第一阈值b1和第二阈值b2的数值同步变化,避免一般连接错误告警和严重连接错误告警混乱的情况。
本申请进一步设置所述第三阈值和所述第四阈值的衰变速均为每过10分钟衰减50%。即比如第三阈值a1或第四阈值a2的当前值为16,在30分钟后该值衰减为8。
而且本实施中,如图7所示,为了避免发出重复的一般数据传输错误告警信息,进一步设置在所述当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警之后,还包括步骤S109:当所述数据传输错误次数的计数值从大于第三阈值的数值衰减至第三阈值时,消除一般连接错误告警。
可理解的是,在当所述数据传输错误次数的计数值等于第四阈值时时,就直接强制剔除所述目标端的连接,因此不会存在目标端的数据传输错误次数的计数值从大于第四阈值的数值衰减至第四阈值的情况。
上述设备连接稳定性评价方法,通过设置与所述目标端的数据传输错误次数的计数值相对比判断的第三阈值和第四阈值均为衰变数值,提升了链路连接稳定性质量的评价效率,提升了设备连接稳定性评价速度。
应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种设备连接稳定性评价装置10,包括检测模块1和控制模块2。
检测模块1用于检测目标端的上报接入信息,判断所述目标端是否初次接入主机端;若是,则对该目标端的离线计数值清零;若否,则对该目标端的离线计数值增加1。
控制模块2用于实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值。
在另一个实施例中,所述控制模块2还用于设置所述第一阈值和所述第二阈值均为衰变数值,所述第一阈值和所述第二阈值的衰变速度相同。本申请设置衰变数值的方式是为了提升链路连接稳定性质量的评价效率,提升设备连接稳定性评价速度。而设置所述第一阈值和所述第二阈值的衰变速度相同,是为了保障第一阈值b1和第二阈值b2的数值同步变化,避免一般连接错误告警和严重连接错误告警混乱的情况。
所述控制模块2进一步设置所述第一阈值和所述第二阈值的衰变速均为每过10分钟衰减50%。即比如第一阈值b1或第二阈值b2的当前值为16,在30分钟后该值衰减为8。
而且本实施中,为了避免发出重复的一般连接错误告警信息,所述控制模块2在所述当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警之后,还用于:当所述目标端的离线计数值从大于第一阈值的数值衰减至第一阈值时,消除一般连接错误告警。
上述设备连接稳定性评价装置10通过设置与所述目标端的离线计数值相对比判断的第一阈值和第二阈值均为衰变数值,提升了链路连接稳定性质量的评价效率,提升了设备连接稳定性评价速度。
在再一个实施例中,在所述目标端上报接入信息之后,所述检测模块1还用于:
将所述目标端的传输错误计数置零;
当所述目标端离线时,所述目标端向所述主机端上报离线信息,所述检测模块1检测所述离线信息。
其中将所述目标端的传输错误计数置零的目的是能在后续基于目标端的传输错误计数信息进行设备连接稳定性评价时,保障前面获取的目标端的传输错误计数准确无误,这样就能避免先前数据的干扰,防止数据错误导致的误判。
在本实施例中,在所述将所述目标端的传输错误计数置零之后,所述控制模块2还用于:
下发输入/输出(IO)指令访问所述目标端,当发送和响应成功时,统计数据传输错误次数;
当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警;当所述数据传输错误次数的计数值等于第四阈值时触发严重数据传输错误告警,并强制剔除所述目标端的连接,其中所述第四阈值大于所述第三阈值。
其中,输入/输出(IO)指令可以理解为initiator与target端的指令访问。
具体参见图2中的login质量评价A(错误计数)内容,其中设置目标端的数据传输错误次数的计数值为实时值a,错误计数告警限制为第三阈值a1,错误计数允许上限值为第四阈值a2。因此在进行设备连接稳定性评价时就会出现以下两种情况:当a等于a1时,触发一般告警;当a等于a2时,触发严重告警,并剔除该target的login,强制剔除所述目标端的连接。
本实施例中进一步增加了login质量评价A(错误计数)内容,使得其能依据检测目标端(target)与主机端(initiator)的连接状态下的数据传输正确性进行连接质量的评价,避免数据传输错误的情况出现。
而且,本实施例所述控制模块2同时包含login质量评价A(错误计数)和login质量评价B(logout次数)的内容,这样不仅能有效评价目标端(target)与主机端(initiator)的连接次数,也可有效评价目标端(target)与主机端(initiator)的数据传输质量。
在还一个实施例中,所述控制模块2用于设置所述第三阈值和所述第四阈值均为衰变数值,所述第三阈值和所述第四阈值的衰变速度相同。
本申请设置衰变数值的方式是为了提升链路连接稳定性质量的评价效率,提升设备连接稳定性评价速度。而设置所述第三阈值和所述第四阈值的衰变速度相同,是为了保障第一阈值b1和第二阈值b2的数值同步变化,避免一般连接错误告警和严重连接错误告警混乱的情况。
具体的,所述控制模块2用于设置所述第三阈值和所述第四阈值的衰变速均为每过10分钟衰减50%。即比如第三阈值a1或第四阈值a2的当前值为16,在30分钟后该值衰减为8。
而且本实施中,为了避免发出重复的一般数据传输错误告警信息,进一步设置在所述当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警之后,还包括步骤:当所述数据传输错误次数的计数值从大于第三阈值的数值衰减至第三阈值时,消除一般连接错误告警。
上述设备连接稳定性评价装置10通过设置与所述目标端的数据传输错误次数的计数值相对比判断的第三阈值和第四阈值均为衰变数值,提升了链路连接稳定性质量的评价效率,提升了设备连接稳定性评价速度。
关于设备连接稳定性评价装置10的具体限定可以参见上文中对于设备连接稳定性评价方法的限定,在此不再赘述。上述设备连接稳定性评价装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储设备连接稳定性评价数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种设备连接稳定性评价方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,请参阅图3,处理器执行计算机程序时实现以下步骤:
步骤S101,检测所述目标端的上报接入信息(login),判断所述目标端是否初次接入所述主机端;若是,则对该目标端的离线(logout)计数值置零;若否,则对该目标端的离线计数值增加1;
步骤S102,实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值。
上述计算机设备通过实时获取所述目标端的离线计数值来进行链路连接稳定性的判断,基于目标端的离线计数值能够有效评价链路质量,有效识别了不稳定链路,并能及时做故障隔离。而且针对目标端的离线计数值的具体情况分为一般连接错误告警和严重连接错误告警,能够方便用户对链路连接稳定性的掌握了解,便于区分实际的链路连接稳定性质量。
在一个实施例中,所述第一阈值和所述第二阈值均为衰变数值,所述第一阈值和所述第二阈值的衰变速度相同;处理器执行计算机程序时还实现以下步骤:
请参阅图4,在所述当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警之后,还包括步骤:
步骤S103,当所述目标端的离线计数值从大于第一阈值的数值衰减至第一阈值时,消除一般连接错误告警。
上述计算机设备通过设置与所述目标端的离线计数值相对比判断的第一阈值和第二阈值均为衰变数值,提升了链路连接稳定性质量的评价效率,提升了设备连接稳定性评价速度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
请参阅图5,在所述目标端上报接入信息之后,还包括步骤:
步骤S105,将所述目标端的传输错误计数置零;
步骤S106,当所述目标端离线时,所述目标端向所述主机端上报离线信息。
请参阅图6,在所述将所述目标端的传输错误计数置零之后,还包括步骤:
步骤S107,下发输入/输出指令访问所述目标端,当发送和响应成功时,统计数据传输错误次数;
步骤S108,当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警;当所述数据传输错误次数的计数值等于第四阈值时触发严重数据传输错误告警,并强制剔除所述目标端的连接,其中所述第四阈值大于所述第三阈值。
所述第三阈值和所述第四阈值均为衰变数值,所述第三阈值和所述第四阈值的衰变速度相同;处理器执行计算机程序时还实现以下步骤:
请参阅图7,在所述当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警之后,还包括步骤:
步骤S109,当所述数据传输错误次数的计数值从大于第三阈值的数值衰减至第三阈值时,消除一般连接错误告警;
具体参见图2,本实施例同时包含login质量评价A(错误计数)和login质量评价B(logout次数)的内容,这样不仅能有效评价目标端(target)与主机端(initiator)的连接次数,也可有效评价目标端(target)与主机端(initiator)的数据传输质量。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,请参阅图3,计算机程序被处理器执行时实现以下步骤:
步骤S101,检测所述目标端的上报接入信息(login),判断所述目标端是否初次接入所述主机端;若是,则对该目标端的离线(logout)计数值置零;若否,则对该目标端的离线计数值增加1;
步骤S102,实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值。
上述计算机可读存储介质通过实时获取所述目标端的离线计数值来进行链路连接稳定性的判断,基于目标端的离线计数值能够有效评价链路质量,有效识别了不稳定链路,并能及时做故障隔离。而且针对目标端的离线计数值的具体情况分为一般连接错误告警和严重连接错误告警,能够方便用户对链路连接稳定性的掌握了解,便于区分实际的链路连接稳定性质量。
在一个实施例中,所述第一阈值和所述第二阈值均为衰变数值,所述第一阈值和所述第二阈值的衰变速度相同;计算机程序被处理器执行时还实现以下步骤:
请参阅图4,在所述当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警之后,还包括步骤:
步骤S103,当所述目标端的离线计数值从大于第一阈值的数值衰减至第一阈值时,消除一般连接错误告警;
上述计算机可读存储介质通过设置与所述目标端的离线计数值相对比判断的第一阈值和第二阈值均为衰变数值,提升了链路连接稳定性质量的评价效率,提升了设备连接稳定性评价速度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
请参阅图5,在所述目标端上报接入信息之后,还包括步骤:
步骤S105,将所述目标端的传输错误计数置零;
步骤S106,当所述目标端离线时,所述目标端向所述主机端上报离线信息。
请参阅图6,在所述将所述目标端的传输错误计数置零之后,还包括步骤:
步骤S107,下发输入/输出指令访问所述目标端,当发送和响应成功时,统计数据传输错误次数;
步骤S108,当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警;当所述数据传输错误次数的计数值等于第四阈值时触发严重数据传输错误告警,并强制剔除所述目标端的连接,其中所述第四阈值大于所述第三阈值。
所述第三阈值和所述第四阈值均为衰变数值,所述第三阈值和所述第四阈值的衰变速度相同;计算机程序被处理器执行时还实现以下步骤:
请参阅图7,在所述当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警之后,还包括步骤:
步骤S109,当所述数据传输错误次数的计数值从大于第三阈值的数值衰减至第三阈值时,消除一般连接错误告警。
具体参见图2,本实施例同时包含login质量评价A(错误计数)和login质量评价B(logout次数)的内容,这样不仅能有效评价目标端(target)与主机端(initiator)的连接次数,也可有效评价目标端(target)与主机端(initiator)的数据传输质量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种设备连接稳定性评价方法,其特征在于,用于评价目标端接入主机端时的连接稳定性,其包括步骤:
检测所述目标端的上报接入信息,判断所述目标端是否初次接入所述主机端;若是,则对该目标端的离线计数值置零;若否,则对该目标端的离线计数值增加1;在所述目标端上报接入信息之后,还包括步骤:将所述目标端的传输错误计数置零;当所述目标端离线时,所述目标端向所述主机端上报离线信息;
实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值;
其中,在所述将所述目标端的传输错误计数置零之后,还包括步骤:
下发输入/输出指令访问所述目标端,当发送和响应成功时,统计数据传输错误次数;
当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警;当所述数据传输错误次数的计数值等于第四阈值时触发严重数据传输错误告警,并强制剔除所述目标端的连接,其中所述第四阈值大于所述第三阈值;所述第三阈值和所述第四阈值均为衰变数值,所述第三阈值和所述第四阈值的衰变速度相同;
当所述数据传输错误次数的计数值从大于第三阈值的数值衰减至第三阈值时,消除一般连接错误告警。
2.根据权利要求1所述的设备连接稳定性评价方法,其特征在于,所述第一阈值和所述第二阈值均为衰变数值,所述第一阈值和所述第二阈值的衰变速度相同。
3.根据权利要求2所述的设备连接稳定性评价方法,其特征在于,
在所述当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警之后,还包括步骤:
当所述目标端的离线计数值从大于第一阈值的数值衰减至第一阈值时,消除一般连接错误告警。
4.一种设备连接稳定性评价装置,其特征在于,所述装置包括:
检测模块,用于检测目标端的上报接入信息,判断所述目标端是否初次接入主机端;若是,则对该目标端的离线计数值清零;若否,则对该目标端的离线计数值增加1;在所述目标端上报接入信息之后,还包括步骤:将所述目标端的传输错误计数置零;当所述目标端离线时,所述目标端向所述主机端上报离线信息;以及
控制模块,用于实时获取所述目标端的离线计数值,当所述目标端的离线计数值等于第一阈值时触发一般连接错误告警;当所述目标端的离线计数值等于第二阈值时触发严重连接错误告警,并强制剔除所述目标端的连接,其中所述第二阈值大于所述第一阈值;
其中,在所述将所述目标端的传输错误计数置零之后,所述控制模块还用于:
下发输入/输出指令访问所述目标端,当发送和响应成功时,统计数据传输错误次数;
当所述数据传输错误次数的计数值等于第三阈值时触发一般数据传输错误告警;当所述数据传输错误次数的计数值等于第四阈值时触发严重数据传输错误告警,并强制剔除所述目标端的连接,其中所述第四阈值大于所述第三阈值;所述第三阈值和所述第四阈值均为衰变数值,所述第三阈值和所述第四阈值的衰变速度相同;
当所述数据传输错误次数的计数值从大于第三阈值的数值衰减至第三阈值时,消除一般连接错误告警。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
CN202210868237.6A 2022-07-22 2022-07-22 设备连接稳定性评价方法、装置和计算机设备和存储介质 Active CN115333970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210868237.6A CN115333970B (zh) 2022-07-22 2022-07-22 设备连接稳定性评价方法、装置和计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210868237.6A CN115333970B (zh) 2022-07-22 2022-07-22 设备连接稳定性评价方法、装置和计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN115333970A CN115333970A (zh) 2022-11-11
CN115333970B true CN115333970B (zh) 2023-08-11

Family

ID=83919459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210868237.6A Active CN115333970B (zh) 2022-07-22 2022-07-22 设备连接稳定性评价方法、装置和计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115333970B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090567A (zh) * 2019-10-31 2020-05-01 苏州浪潮智能科技有限公司 一种链路告警方法、设备以及存储介质
CN111290918A (zh) * 2020-02-26 2020-06-16 苏州浪潮智能科技有限公司 服务器运行状态监控方法、装置及计算机可读存储介质
CN111858122A (zh) * 2020-07-29 2020-10-30 北京浪潮数据技术有限公司 一种存储链路的故障检测方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014220576A (ja) * 2013-05-01 2014-11-20 富士通株式会社 情報処理装置、情報処理装置の制御プログラムおよび情報処理装置の制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090567A (zh) * 2019-10-31 2020-05-01 苏州浪潮智能科技有限公司 一种链路告警方法、设备以及存储介质
CN111290918A (zh) * 2020-02-26 2020-06-16 苏州浪潮智能科技有限公司 服务器运行状态监控方法、装置及计算机可读存储介质
CN111858122A (zh) * 2020-07-29 2020-10-30 北京浪潮数据技术有限公司 一种存储链路的故障检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115333970A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
EP3660681B1 (en) Memory fault detection method and device, and server
US9934165B2 (en) Apparatus for monitoring data access to internal memory device and internal memory device
CN102135925B (zh) 用于检测错误检查和纠正内存的方法和装置
CN111858122A (zh) 一种存储链路的故障检测方法、装置、设备及存储介质
CN111221775B (zh) 处理器、缓存处理方法及电子设备
CN114996065A (zh) 内存故障预测方法、装置及设备
CN108400885A (zh) 一种服务可用性检测方法、装置及电子设备
CN117880053A (zh) 提供报警的方法、装置、设备、存储介质及程序产品
CN115333970B (zh) 设备连接稳定性评价方法、装置和计算机设备和存储介质
US11914703B2 (en) Method and data processing system for detecting a malicious component on an integrated circuit
CN113625957B (zh) 一种硬盘故障的检测方法、装置及设备
CN110716818B (zh) 一种异常处理方法、装置、硬件保护设备及存储介质
CN113568806A (zh) 一种sas卡链路状态监控方法、系统、装置及可读存储介质
CN111475400A (zh) 一种业务平台的验证方法及相关设备
CN114726767B (zh) 一种web服务响应异常检测方法、装置及存储介质
CN115086156B (zh) 存储区域网络中异常应用的定位方法
CN112506736B (zh) office文件打开状态监控方法及装置
CN115599312B (zh) 基于存储集群的大数据处理方法及ai系统
CN106874161B (zh) 一种高速缓存异常的处理方法及装置
CN117992273A (zh) 数据处理方法、装置、电子设备以及存储介质
CN118502995A (zh) 外部看门狗的监控方法、装置和电子设备
CN117234862A (zh) 一种服务器内存健康状况告警方法、系统、终端及介质
CN118138489A (zh) 网络弹性量化评估方法、装置、计算机设备和存储介质
CN116627328A (zh) 用于ssd异常掉电的写保护方法、装置、设备及介质
CN116545835A (zh) 故障告警处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant