CN117724885A - 链路监测方法、装置、电子设备及存储介质 - Google Patents

链路监测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117724885A
CN117724885A CN202311605765.3A CN202311605765A CN117724885A CN 117724885 A CN117724885 A CN 117724885A CN 202311605765 A CN202311605765 A CN 202311605765A CN 117724885 A CN117724885 A CN 117724885A
Authority
CN
China
Prior art keywords
link
error rate
fault
alarm
serial link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311605765.3A
Other languages
English (en)
Inventor
吉元骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311605765.3A priority Critical patent/CN117724885A/zh
Publication of CN117724885A publication Critical patent/CN117724885A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本发明提供了一种链路监测方法、装置、电子设备及存储介质,应用于独立冗余磁盘阵列卡,独立冗余磁盘阵列卡通过串行链路与服务器主板互联,该方法包括:监测串行链路传输数据时的数据误码率,记录预设监测周期内的数据误码率的变化情况,根据预设监测周期内数据误码率的变化情况,确定串行链路的故障类型,采用故障类型对应预设报警信号进行链路故障报警,其中,预设报警信号与故障类型一一对应。本发明通过监测串行链路在传输数据时的丢包误码率实时确定出链路的传输状态,并采用与链路的故障状态一一对应的报警信号直观反映链路的具体故障类型,从而准确监测链路的稳定性,在链路故障中断之前预先判断并报警,进一步提高链路稳定性。

Description

链路监测方法、装置、电子设备及存储介质
技术领域
本发明涉及服务器技术领域,特别是涉及一种链路监测方法、装置、电子设备及存储介质。
背景技术
RAID(Redundant Array of Independent Disks,独立冗余磁盘阵列)卡是一种把多块独立的硬盘按不同的方式组合起来形成一个硬盘组,从而提供比单个硬盘更高的存储性能和提供数据备份技术,在服务器应用中被广泛的采纳。
RAID卡与服务器主板之间通过SAS链路连接,即以串行SCSI协议通信,因此,SAS链路稳定性是服务器与RAID卡数据读写存储必须要关注的重要指标。目前,SAS链路进行稳定性的测试常采用以下方式:将通过数据存储链路向硬盘内部写入数据,通过同一条数据存储链路从硬盘内部读取数据,将写入的数据和读取的数据做比较,输出比对结果至屏幕判断存储链路有无异常,或者通过操作系统检测硬盘存储的数据比特是否发生翻转来检测数据存储链路的稳定性。
然而,这种通过对比硬盘存储的数据在传输过程中的正确性判断链路是否稳定的方式只能借助操作系统对传输后的数据进行验证检测,无法实时检测出链路是否稳定传输,更无法准确确定出存储链路的错误类型,进一步影响RAID卡与服务器的数据传输。
发明内容
有鉴于此,本发明旨在提出一种链路监测方法、装置、电子设备及存储介质,解决现有链路检测方式无法准确确定出存储链路的错误类型,影响RAID卡与服务器的数据传输的问题,实现实时、准确的链路稳定性监测。
依据本发明的第一方面,提供了一种链路监测方法,应用于独立冗余磁盘阵列卡,所述独立冗余磁盘阵列卡通过串行链路与服务器主板互联,所述方法包括:
监测所述串行链路传输数据时的数据误码率,记录预设监测周期内的所述数据误码率的变化情况;
根据预设监测周期内所述数据误码率的变化情况,确定所述串行链路的故障类型;
采用所述故障类型对应预设报警信号进行链路故障报警,其中,所述预设报警信号与所述故障类型一一对应。
可选地,所述监测串行链路传输数据时的数据误码率,记录预设监测周期内的所述数据误码率的变化信情况,包括:
在所述串行链路连通所述独立冗余磁盘阵列卡和所述服务器主板的情况下监测所述串行链路传输数据是否出现丢包;
根据所述串行链路的丢包情况,生成预设监测周期内所述串行链路的数据误码率;
记录所述预设监测周期内所述串行链路的数据误码率的变化情况。
可选地,所述根据所述串行链路的丢包情况,生成预设监测周期内所述串行链路的数据误码率包括:
若所述串行链路在预设单位时长内出现丢包,则记录所述数据误码率为第一误码率,若所述串行链路在预设单位时长内未出现丢包,则记录所述数据误码率为第二误码率;
按照时序将所述第一误码率和所述第二误码率存储为预设监测周期内所述串行链路的数据误码率。
可选地,所述根据预设监测周期内所述数据误码率的变化情况,确定所述串行链路的故障类型,包括:
根据所述数据误码率的变化情况,对所述数据误码率进行计数,确定预设监测周期内所述第一误码率的出现次数;
若所述预设监测周期内所述第一误码率的出现次数大于第一阈值,则确定所述串行链路的故障类型为第一故障类型;
若所述预设监测周期内连续出现第一误码率的数量大于第二阈值,则确定所述链路串行链路的故障类型为第二故障类型。
可选地,所述独立冗余磁盘阵列卡还连接有报警设备,所述采用所述故障类型对应预设报警信号进行链路故障报警,其中,所述预设报警信号与所述故障类型一一对应,包括:
若所述串行链路出现故障的类型为第一故障类型,生成所述第一故障类型对应第一报警信号并发送至报警设备,控制所述报警设备根据所述第一报警信号进行闪烁;
若所述串行链路出现故障的类型为第二故障类型,生成所述第二故障类型对应第二报警信号并发送至所述报警设备,控制所述报警设备根据所述第二报警信号进行闪烁;
分别对所述第一故障类型和所述第二故障类型的闪烁次数进行累计计数,对应生成累计出现次数;
若所述第一故障类型的累计出现次数大于第一次数阈值,或所述第二故障类型的累计出现次数大于第二次数阈值,控制所述报警设备常亮进行链路故障报错,以使用户进行故障检修。
可选地,所述监测串行链路传输数据时的数据误码率之前,还包括:
响应于接收到的数据传输指令,检测所述独立冗余磁盘阵列卡与服务器主板间的所述串行链路是否连通;
若所述串行链路连通,发送串行链路的连通信号至报警设备并控制所述串行链路进行数据传输;
否则,发送串行链路的连通故障信号至所述报警设备,以使用户根据所述连通故障信号进行故障检修。
可选地,所述采用所述故障类型对应预设报警信号进行链路故障报警之后,还包括:
生成所述预设监测周期内的串行链路故障报警报告;
删除记录的历史监测周期内串行链路的数据误码率的变化情况。
依据本发明的第二方面,提供了一种链路监测装置,应用于独立冗余磁盘阵列卡,所述独立冗余磁盘阵列卡通过串行链路与服务器主板互联,所述装置包括:
监测链路模块,用于监测串行链路传输数据时的数据误码率,记录预设监测周期内的所述数据误码率的变化情况;
确定故障模块,用于根据预设监测周期内所述数据误码率的变化情况,确定所述串行链路的故障类型;
故障报警模块,用于采用所述故障类型对应预设报警信号进行链路故障报警,其中,所述预设报警信号与所述故障类型一一对应。
依据本发明的又一方面,还提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上所述的链路监测方法。
依据本发明的又一方面,还提供一种可读存储介质,所述可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的链路监测方法的步骤。
本发明实施例提供的链路监测方法,应用于独立冗余磁盘阵列卡,独立冗余磁盘阵列卡通过串行链路与服务器主板互联,通过独立冗余磁盘阵列卡监测串行链路传输数据时的数据误码率,记录预设监测周期内的数据误码率的变化情况,根据预设监测周期内数据误码率的变化情况,确定串行链路的故障类型,采用故障类型对应预设报警信号进行链路故障报警,其中,预设报警信号与故障类型一一对应。本发明通过监控RAID卡到主板之间连通的串行链路在传输数据时的丢包误码率,实时确定出串行链路的传输状态,并采用与串行链路的故障状态一一对应的报警信号直观反映串行链路的具体故障类型,从而准确监测RAID卡和主板之间串行链路的稳定性,通过能够直观反映故障类型的预警方式,及时反馈RAID卡进行数据恢复,在出现链路中断问题之前预先判断报警,预防出现因链路故障导致业务中断的问题,进一步提高链路稳定性,保证服务器的数据读写和运维。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种链路监测方法的步骤流程图;
图2是图1中本发明实施例提供的链路监测方法中步骤101的流程图;
图3是图1中本发明实施例提供的链路监测方法中步骤102的流程图;
图4是图1中本发明实施例提供的链路监测方法中步骤103的流程图;
图5是本发明实施例提供的另一种链路监测方法的步骤流程图;
图6是本发明实施例提供的链路监测方法的场景示意图;
图7是本发明实施例提供的链路监测方法的误码率示意图之一;
图8是本发明实施例提供的链路监测方法的误码率示意图之二;
图9是本发明实施例提供的一种链路监测装置的结构示意图;
图10是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
参照图1,示出了本发明实施例提供的链路监测方法的步骤流程图,应用于独立冗余磁盘阵列卡,所述独立冗余磁盘阵列卡通过串行链路与服务器主板互联,所述方法可以包括:
步骤101,监测串行链路传输数据时的数据误码率,记录预设监测周期内的数据误码率的变化情况。
本发明实施例应用于独立冗余磁盘阵列卡,独立冗余磁盘阵列卡RAID卡通过串行链路SAS链路与服务器主板互联,串行链路(Serial Attached SCSI,SAS)即串行连结SCSI,是一种采用了串行总线的高速互连技术,通过物理上使用串行总线连结,在链路上传输SCSI协议标准命令。参照图6所示,RAID卡与服务器主板之间通过SAS链路连接,为实现准确、直观、实时监测到SAS链路的稳定状态,本实施例通过RAID卡监测SAS链路在数据传输时的丢包误码率,从而判断故障情况并通过报警设备显示故障类型对应不同的预警信号,以使用户能够根据预警信号直观确定SAS链路的状态,实现直观、准确的监测到链路出现问题,进而及时进行故障处理,防止业务出现中断的问题。
需要说明的是,RAID卡是安装在服务器中的,RAID卡一端通过SAS链路连接服务器中主板,另一端连接多个存储器,存储器可以包含SSD和HHD,在此不作具体限定,在服务器的CPU需要进行数据的读写时,在写命令下发后RAID卡会将服务器内存中的数据写入存储器中,相反,读命令则是RAID卡读取存储器中的数据,因此,数据读写过程中均需要通过SAS链路进行数据传输。
具体的,RAID卡监测SAS链路传输数据时的数据误码率,记录预设监测周期内的数据误码率的变化情况,其中,数据误码率为串行链路传输数据时数据的丢包情况,参照图7,在单位时间内,若数据传输出现丢包,则误码率记为1,若数据传输未出现丢包,则误码率记为0,从而依据时钟信号对照生成一段监测时长的数据误码率情况,本实施例中RAID卡可以将预设监测周期内的数据误码率记录在自身存储模块,也可以存储在其他存储部件中,在此不作具体限定,预设监测周期依据服务器的数据读写频率和需求预先设定,具体周期时长在此不作具体限定。
示例的,本实施例中RAID卡可以定时扫描SAS链路,监测链路传输数据时的数据误码率,记录预设监测周期内的数据误码率的变化情况,当记录的数据误码率超过一定存储量则进行链路故障判断,需要说明的是,预设监测周期内的数据误码率的变化情况过长或过短均无法准确反映链路的实际数据传输状态,因此,需要在数据误码率的变化情况满足一定存储量时进行判断,在此不再一一赘述。
步骤102,根据预设监测周期内数据误码率的变化情况,确定串行链路的故障类型。
本发明实施例中,RAID卡中具备数据误码率的判断功能,根据记录的预设监测周期内数据误码率的变化情况进行判断,按照预设判断标准对数据误码率的变化情况进行识别对应,从而确定链路的故障类型,以便于按照不同的故障类型进行预警。
具体的,RAID卡中的判断功能负责根据设定的判断标准判断是否进行故障上报,并控制报警设备进行相应的预警。链路的故障类型是通过多次测试实验确定的,本实施例中,在链路连通进行数据传输的前提下,依据数据误码率的出现次数确定出链路的故障类型,故障类型包括第一故障类型和第二故障类型,其中,第一故障类型设定为若预设监测周期内误码率1的出现次数大于第一阈值,则确定链路的故障类型为第一故障类型;第二故障类型设定为若预设监测周期内连续出现误码率1的数量大于第二阈值,则确定链路的故障类型为第二故障类型。
需要说明的是,本实施例中的链路的故障类型是链路存在问题的类型,链路处于某种故障类型仅说明数据传输出现异常,并且,本实施例中的故障类型包括但不限于上述两种,以上仅为具体的举例说明,RAID卡中的判断功能可以根据设定的判断标准判断是否进行故障上报。
示例的,RAID卡根据记录部分传输来的数据误码率,将数据误码率进行计数,如果每1s的错误码数量达到100个则标记为第一故障类型;同时继续进行误码信号的判断,如果在预设监测周期内出现连续20个以上的错误码,则标记为第二故障类型,在出现误码数过多或者连续误码率多的情况,说明数据传输异常,需要及时进行预警。
步骤103,采用故障类型对应预设报警信号进行链路故障报警,其中,预设报警信号与故障类型一一对应。
本发明实施例中,RAID卡在判断SAS链路的数据误码率确定出故障类型后,采用故障类型对应预设报警信号进行链路故障报警,其中,预设报警信号与故障类型一一对应,预设报警信号用于直观、及时显示出链路的状态,以便于用户根据报警信号直接得知链路的问题。
需要说明的是,独立冗余磁盘阵列卡还连接有报警设备,RAID卡连接的报警设备可以是LED控制器,其中包括多个LED灯,用于显示不同的预警信号,需要说明的是,报警设备还可以是其他能够区分故障类型的报警信号显示设备,本实施例以LED控制器作为报警设备为例进行说明,本实施例对报警设备不作具体限定。
具体的,若串行链路出现故障的类型为第一故障类型,则生成第一故障类型对应第一报警信号并发送至报警设备,控制报警设备根据第一报警信号进行闪烁,若串行链路出现故障的类型为第二故障类型,则生成第二故障类型对应第二报警信号并发送至报警设备,控制报警设备根据第二报警信号进行闪烁。第一报警信号和第二报警信号通过不同设备显示,或者显示为不同的信号,以便于区分链路的故障状态。
示例的,如果每1s的错误码数量达到100个则为第一故障类型,需要进行预警,生成第一报警信号指示报警设备中的LED1闪烁;如果出现连续20个以上的误码率则为第二故障类型,需要进行预警,生成第二报警信号指示报警设备中的LED2闪烁,需要说明的是,第一报警信号和第二报警信号用于指示不同的LED灯闪烁,本实施例对报警信号的类型不作具体限定。
本实施例中,对故障类型对应报警信号指示报警设备中的LED闪烁次数分别进行计数,当累计计数超过预设阈值时,则表明链路问题较多,立即进行报警,即将闪烁的报警信号灯更改为常亮,以便于用户根据信号灯的报警信号确定链路的问题,及时进行检修处理,避免出现业务中断。
本发明实施例提供的链路监测方法,应用于独立冗余磁盘阵列卡,独立冗余磁盘阵列卡通过串行链路与服务器主板互联,通过独立冗余磁盘阵列卡监测串行链路传输数据时的数据误码率,记录预设监测周期内的数据误码率的变化情况,根据预设监测周期内数据误码率的变化情况,确定串行链路的故障类型,采用故障类型对应预设报警信号进行链路故障报警,其中,预设报警信号与故障类型一一对应。本发明通过监控RAID卡到主板之间连通串行链路在传输数据时的丢包误码率实时确定出串行链路的传输状态,并采用与链路的故障状态一一对应的报警信号直观反映串行链路的具体故障类型,从而准确监测RAID卡和主板之间串行链路的稳定性,通过能够直观反映故障类型的预警方式以便于及时反馈RAID卡进行数据恢复,在出现问题之前提前判断,预防出现因链路故障问题导致业务中断,进一步提高链路稳定性,保证服务器的数据读写和运维。
进一步的,参照图2,示出了图1提供的一种链路监测方法中步骤101的流程图,该方法与本发明的第一实施例提供的链路监测方法基本相同,步骤101可以包括:
步骤201,在串行链路连通所述独立冗余磁盘阵列卡和所述服务器主板的情况下监测串行链路传输数据是否出现丢包。
本发明实施例中,预先对串行链路的物理连通情况进行检测,在确定串行链路连通的情况下监测串行链路传输数据是否出现丢包,避免物理中断影响数据传输,进一步影响故障监测结果。
步骤202,根据串行链路的丢包情况,生成预设监测周期内串行链路的数据误码率。
具体的,RAID卡负责数据传输,即将服务器主板传输的数据写入存储器或者从存储器获取目标数据传输至服务器主板,在数据的传输过程因为各种原因,例如信号干扰、链路不稳定等会导致数据丢包的情况,本实施例中,可以定时扫描链路,根据串行链路的丢包情况,生成预设监测周期内串行链路的数据误码率,示例的,以5ns为预设单位时长扫描一次,在发现有丢包的情况就将误码率信号置为“1”,反之如果不存在误码率就为“0”,生成预设监测周期内串行链路的数据误码率。
步骤203,记录预设监测周期内串行链路的数据误码率的变化情况。
本实施例中可以将预设监测周期内各个预设单位时长的串行链路的数据误码率记录为反映变化情况的信号,便于判断串行链路的数据误码状态。
具体的,步骤202,根据串行链路的丢包情况,生成预设监测周期内串行链路的数据误码率可以具体包括以下步骤:
首先,若串行链路在预设单位时长内出现丢包,则记录数据误码率为第一误码率,若串行链路在预设单位时长内未出现丢包,则记录数据误码率为第二误码率;
其次,按照时序将第一误码率和第二误码率存储为预设监测周期内串行链路的数据误码率。
需要说明的是,第一误码率为出现丢包的误码率,记为1;第二误码率为未出现丢包的误码率,记为0,参照图7,在单位时间内,若数据传输出现丢包,则误码率记为1,若数据传输未出现丢包,则误码率记为0,从而依据时钟信号对照生成一段监测时长的数据误码率情况。
本发明实施例通过生成并记录预设监测周期内串行链路的数据误码率,能够在数据传输过程中可以及时的检测到串行链路出现问题,进而及时进行故障处理,防止业务出现中断的问题。
进一步的,参照图3,示出了图1提供的一种链路监测方法中步骤102的流程图,该方法与本发明的第一实施例提供的链路监测方法基本相同,步骤102可以包括:
步骤301,根据数据误码率的变化情况,对数据误码率进行计数,确定预设监测周期内第一误码率的出现次数。
本发明实施例中,根据数据误码率的变化情况,即丢包对应的第一误码率和第二误码率的分布情况进行数据误码率计数,确定预设监测周期内第一误码率的出现次数,即确定出数据出现丢包的频率和次数,便于判断链路的稳定性。
步骤302,若预设监测周期内第一误码率的出现次数大于第一阈值,则确定串行链路的故障类型为第一故障类型;
步骤303,若预设监测周期内连续出现第一误码率的数量大于第二阈值,则确定串行链路的故障类型为第二故障类型。
需要说明的是,参照图8示出的两种数据误码率出现情况,若预设监测周期内第一误码率的出现次数大于第一阈值,则确定串行链路的故障类型为第一故障类型,若预设监测周期内连续出现第一误码率的数量大于第二阈值,则确定串行链路的故障类型为第二故障类型,即锁定出现误码数过多或者连续误码率多的情况。需要说明的是,第一阈值是单位时间内出现错误码的数量的阈值,第二阈值是连续出现误码的数量的阈值,具体数值在此不作限定,示例的,如果每1s的错误码数量达到100个则串行链路的故障类型为第一故障类型,如果出现连续20个以上的误码率,则串行链路的故障类型为第二故障类型。
本发明实施例通过监测预设监测周期内错误误码率的出现次数,预先确定出链路的一种故障类别,以便于采用与故障类别对应的不同预警方式进行报警,实现了灵活的链路故障监控,以便于在故障出现后立刻进行预处理,防止出现链路彻底故障导致客户的业务中断问题,同时减少运维成员的时间成本,节省故障诊断时间。
进一步的,参照图4,示出了图1提供的一种链路监测方法中步骤103的流程图,该方法与本发明的第一实施例提供的链路监测方法基本相同,步骤103可以包括:
步骤401,若串行链路出现故障的类型为第一故障类型,生成第一故障类型对应第一报警信号并发送至报警设备,控制报警设备根据第一报警信号进行闪烁。
具体的,RAID卡若判断出串行链路出现故障的类型为第一故障类型,生成第一故障类型对应第一报警信号,并发送至报警设备,控制报警设备响应于第一报警信号指示LED1灯闪烁进行预警,提示用户链路出现多次丢包。
步骤402,若串行链路出现故障的类型为第二故障类型,生成第二故障类型对应第二报警信号并发送至报警设备,控制报警设备根据第二报警信号进行闪烁。
具体的,RAID卡若判断出串行链路出现故障的类型为第二故障类型,生成第二故障类型对应第二报警信号,并发送至报警设备,控制报警设备响应于第二报警信号指示LED2灯闪烁进行预警,提示用户链路出现连续多次的丢包。
步骤403,分别对第一故障类型和第二故障类型的闪烁次数进行累计计数,对应生成累计出现次数。
需要说明的是,当串行链路出现多次丢包或者连续丢包的次数较多时,说明链路的稳定性出现故障,需要及时进行维护,为准确、及时提示用户进行维护,则RAID卡在每进行一次报警信号预警时,分别对第一故障类型和第二故障类型的闪烁次数进行累计计数,对应生成累计出现次数,以便于按照累计出现次数进行故障报警。
步骤404,若第一故障类型的累计出现次数大于第一次数阈值,或第二故障类型的累计出现次数大于第二次数阈值,控制报警设备常亮进行链路故障报错,以使用户进行故障检修。
本发明实施例中,通过外部视觉明显区分的报警设备,用户可以初步根据报警设备的状态来初步判断RAID卡串行链路处于何种故障状态,出现哪种报错丢包、连续丢包,次数多少,是否需要用户立即关注,是否需要用户关机检查等,实现用户直观、实时关注链路状态,以防出现链路完全故障中断的情况,减少出现业务阻塞的情况。
参照图5,示出了本发明实施例提供的另一种链路监测方法的步骤流程图,该方法与本发明的第一实施例提供的链路监测方法基本相同,区别在于,所述方法还可以包括:
步骤104,响应于接收到的数据传输指令,检测独立冗余磁盘阵列卡与服务器主板间的串行链路是否连通。
本发明实施例中,RAID卡接收到的数据传输指令,在进行数据处理前首先判断串行链路是否物理连通,若连通则指示连通并允许串行链路进行数据传输,否则,进行故障报警。
步骤105,若串行链路连通,发送串行链路的连通信号至报警设备并控制串行链路进行数据传输。
步骤106,否则,发送串行链路的连通故障信号至报警设备,以使用户根据连通故障信号进行故障检修。
需要说明的是,若串行链路连通,RAID卡发送串行链路的连通信号至报警设备,以使报警设备中的LED0灯常亮,并控制串行链路进行数据传输,否则,发送串行链路的连通故障信号至报警设备,以使LED0灯熄灭,便于用户根据连通故障信号进行故障检修,其中,连通信号和连通故障信号在报警设备中采用直观、明显区别的预警方式显示即可,以上仅为具体的举例说明。
步骤101,监测串行链路传输数据时的数据误码率,记录预设监测周期内的数据误码率的变化情况。
步骤102,根据预设监测周期内数据误码率的变化情况,确定串行链路的故障类型。
步骤103,采用故障类型对应预设报警信号进行链路故障报警,其中,预设报警信号与故障类型一一对应。
步骤101至步骤103参照前序所述,在此不再赘述。
本发明实施例通过监控RAID卡到主板之间串行链路是否物理连通,根据物理连通情况进行不同的预警,并在连通的情况下监测传输数据时的丢包误码率实时确定出链路的传输状态,采用与链路的故障状态一一对应的报警信号直观反映串行链路的具体故障类型,从而准确监测RAID卡和主板之间串行链路的稳定性,通过能够直观反映故障类型的预警方式以便于及时反馈RAID卡进行数据恢复,在出现问题之前提前判断,预防出现因链路故障问题导致业务中断,进一步提高链路稳定性,保证服务器的数据读写和运维。
具体的,步骤103采用故障类型对应预设报警信号进行链路故障报警之后,还可以包括以下步骤:
生成预设监测周期内的串行链路故障报警报告;
删除记录的历史监测周期内串行链路的数据误码率的变化情况。
需要说明的是,在每次监测周期完成串行链路故障报警后,为便于用户后续查看了解链路的稳定性,生成预设监测周期内的串行链路故障报警报告,为进一步释放RAID卡的存储空间,提高判断串行链路故障类型的数据处理速度,在完成报警监测后,及时删除记录的历史监测周期内串行链路的数据误码率的变化情况,以便下一监测周期的数据存储。
参照图9,示出了本发明实施例提供的一种链路监测装置的结构示意图,应用于独立冗余磁盘阵列卡,所述独立冗余磁盘阵列卡通过串行链路与服务器主板互联,所述装置包括:
监测链路模块501,用于监测串行链路传输数据时的数据误码率,记录预设监测周期内的所述数据误码率的变化情况;
确定故障模块502,用于根据预设监测周期内所述数据误码率的变化情况,确定所述串行链路的故障类型;
故障报警模块503,用于采用所述故障类型对应预设报警信号进行链路故障报警,其中,所述预设报警信号与所述故障类型一一对应。
进一步的,所述监测链路模块501包括:
监测子模块,用于在所述串行链路连通所述独立冗余磁盘阵列卡和所述服务器主板的情况下监测所述串行链路传输数据是否出现丢包;
生成子模块,用于根据所述串行链路的丢包情况,生成预设监测周期内所述串行链路的数据误码率;
记录子模块,用于记录所述预设监测周期内所述串行链路的数据误码率的变化情况。
进一步的,所述生成子模块包括:
记录单元,用于若所述串行链路在预设单位时长内出现丢包,则记录所述数据误码率为第一误码率,若所述串行链路在预设单位时长内未出现丢包,则记录所述数据误码率为第二误码率;
存储单元,用于按照时序将所述第一误码率和所述第二误码率存储为预设监测周期内所述串行链路的数据误码率。
进一步的,所述确定故障模块502包括:
确定次数子模块,用于根据所述数据误码率的变化情况,对所述数据误码率进行计数,确定预设监测周期内所述第一误码率的出现次数;
第一确定子模块,用于若所述预设监测周期内所述第一误码率的出现次数大于第一阈值,则确定所述串行链路的故障类型为第一故障类型;
第二确定子模块,用于若所述预设监测周期内连续出现第一误码率的数量大于第二阈值,则确定所述串行链路的故障类型为第二故障类型。
进一步的,所述独立冗余磁盘阵列卡还连接有报警设备,所述故障报警模块503包括:
第一报警子模块,用于若所述串行链路出现故障的类型为第一故障类型,生成所述第一故障类型对应第一报警信号并发送至报警设备,控制所述报警设备根据所述第一报警信号进行闪烁;
第二报警子模块,用于若所述串行链路出现故障的类型为第二故障类型,生成所述第二故障类型对应第二报警信号并发送至所述报警设备,控制所述报警设备根据所述第二报警信号进行闪烁;
计数子模块,用于分别对所述第一故障类型和所述第二故障类型的闪烁次数进行累计计数,对应生成累计出现次数;
故障报错子模块,用于若所述第一故障类型的累计出现次数大于第一次数阈值,或所述第二故障类型的累计出现次数大于第二次数阈值,控制所述报警设备常亮进行链路故障报错,以使用户进行故障检修。
进一步的,所述装置还包括:
检测连通模块,用于响应于接收到的数据传输指令,检测所述独立冗余磁盘阵列卡与服务器主板间的所述串行链路是否连通;
第一发送模块,用于若所述串行链路连通,发送串行链路的连通信号至报警设备并控制所述串行链路进行数据传输;
第二发送模块,用于否则,发送所述串行链路的连通故障信号至所述报警设备,以使用户根据所述连通故障信号进行故障检修。
进一步的,所述装置还包括:
生成报告模块,用于生成所述预设监测周期内的串行链路故障报警报告;
删除记录模块,用于删除记录的历史监测周期内串行链路的数据误码率的变化情况。
本发明实施例提供的链路监测装置,通过监测串行链路传输数据时的数据误码率,记录预设监测周期内的数据误码率的变化情况,根据预设监测周期内数据误码率的变化情况,确定串行链路的故障类型,采用故障类型对应预设报警信号进行链路故障报警,其中,预设报警信号与故障类型一一对应。本发明通过监控RAID卡到主板之间连通串行链路在传输数据时的丢包误码率,实时确定出串行链路的传输状态,并采用与串行链路的故障状态一一对应的报警信号直观反映串行链路的具体故障类型,从而准确监测RAID卡和主板之间串行链路的稳定性,通过能够直观反映故障类型的预警方式,及时反馈对RAID卡进行数据恢复,在出现链路中断问题之前预先判断报警,预防出现因链路故障导致业务中断的问题,进一步提高链路稳定性,保证服务器的数据读写和运维。
参照图10,本发明实施例还提供了一种电子设备,如图10所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
监测串行链路传输数据时的数据误码率,记录预设监测周期内的所述数据误码率的变化情况;
根据预设监测周期内所述数据误码率的变化情况,确定所述串行链路的故障类型;
采用所述故障类型对应预设报警信号进行链路故障报警,其中,所述预设报警信号与所述故障类型一一对应。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的链路监测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种链路监测方法,其特征在于,应用于独立冗余磁盘阵列卡,所述独立冗余磁盘阵列卡通过串行链路与服务器主板互联,所述方法包括:
监测所述串行链路传输数据时的数据误码率,记录预设监测周期内的所述数据误码率的变化情况;
根据预设监测周期内所述数据误码率的变化情况,确定所述串行链路的故障类型;
采用所述故障类型对应预设报警信号进行链路故障报警,其中,所述预设报警信号与所述故障类型一一对应。
2.根据权利要求1所述的方法,其特征在于,所述监测所述链路链路传输数据时的数据误码率,记录预设监测周期内的所述数据误码率的变化信情况,包括:
在所述串行链路连通所述独立冗余磁盘阵列卡和所述服务器主板的情况下监测所述串行链路传输数据是否出现丢包;
根据所述串行链路的丢包情况,生成预设监测周期内所述串行链路的数据误码率;
记录所述预设监测周期内所述串行链路的数据误码率的变化情况。
3.根据权利要求2所述的方法,其特征在于,所述根据所述串行链路的丢包情况,生成预设监测周期内所述串行链路的数据误码率包括:
若所述串行链路在预设单位时长内出现丢包,则记录所述数据误码率为第一误码率,若所述串行链路在预设单位时长内未出现丢包,则记录所述数据误码率为第二误码率;
按照时序将所述第一误码率和所述第二误码率存储为预设监测周期内所述串行链路的数据误码率。
4.根据权利要求1所述的方法,其特征在于,所述根据预设监测周期内所述数据误码率的变化情况,确定所述链路的故障类型,包括:
根据所述数据误码率的变化情况,对所述数据误码率进行计数,确定预设监测周期内所述第一误码率的出现次数;
若所述预设监测周期内所述第一误码率的出现次数大于第一阈值,则确定所述链路的故障类型为第一故障类型;
若所述预设监测周期内连续出现第一误码率的数量大于第二阈值,则确定所述链路的故障类型为第二故障类型。
5.根据权利要求1所述的方法,其特征在于,所述独立冗余磁盘阵列卡还连接有报警设备,所述采用所述故障类型对应预设报警信号进行链路故障报警,其中,所述预设报警信号与所述故障类型一一对应,包括:
若所述串行链路出现故障的类型为第一故障类型,生成所述第一故障类型对应第一报警信号并发送至所述报警设备,控制所述报警设备根据所述第一报警信号进行闪烁;
若所述串行链路出现故障的类型为第二故障类型,生成所述第二故障类型对应第二报警信号并发送至所述报警设备,控制所述报警设备根据所述第二报警信号进行闪烁;
分别对所述第一故障类型和所述第二故障类型的闪烁次数进行累计计数,对应生成累计出现次数;
若所述第一故障类型的累计出现次数大于第一次数阈值,或所述第二故障类型的累计出现次数大于第二次数阈值,控制所述报警设备常亮进行链路故障报错,以使用户进行故障检修。
6.根据权利要求1所述的方法,其特征在于,所述监测所述串行链路传输数据时的数据误码率之前,还包括:
响应于接收到的数据传输指令,检测所述独立冗余磁盘阵列卡与服务器主板间的所述串行链路是否连通;
若所述串行链路连通,发送串行链路的连通信号至报警设备并控制所述串行链路进行数据传输;
否则,发送串行链路的连通故障信号至所述报警设备,以使用户根据所述连通故障信号进行故障检修。
7.根据权利要求1所述的方法,其特征在于,所述采用所述故障类型对应预设报警信号进行链路故障报警之后,还包括:
生成所述预设监测周期内的串行链路故障报警报告;
删除记录的历史监测周期内所述串行链路的数据误码率的变化情况。
8.一种链路监测装置,其特征在于,应用于独立冗余磁盘阵列卡,所述独立冗余磁盘阵列卡通过串行链路与服务器主板互联,所述装置包括:
监测链路模块,用于监测串行链路传输数据时的数据误码率,记录预设监测周期内的所述数据误码率的变化情况;
确定故障模块,用于根据预设监测周期内所述数据误码率的变化情况,确定所述串行链路的故障类型;
故障报警模块,用于采用所述故障类型对应预设报警信号进行链路故障报警,其中,所述预设报警信号与所述故障类型一一对应。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的链路监测方法。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的链路监测方法。
CN202311605765.3A 2023-11-28 2023-11-28 链路监测方法、装置、电子设备及存储介质 Pending CN117724885A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311605765.3A CN117724885A (zh) 2023-11-28 2023-11-28 链路监测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311605765.3A CN117724885A (zh) 2023-11-28 2023-11-28 链路监测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117724885A true CN117724885A (zh) 2024-03-19

Family

ID=90207847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311605765.3A Pending CN117724885A (zh) 2023-11-28 2023-11-28 链路监测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117724885A (zh)

Similar Documents

Publication Publication Date Title
EP3660681B1 (en) Memory fault detection method and device, and server
EP2359534B1 (en) Detecting an unreliable link in a computer system
US7007191B2 (en) Method and apparatus for identifying one or more devices having faults in a communication loop
US20050091369A1 (en) Method and apparatus for monitoring data storage devices
US20070061632A1 (en) Methods and structure for verifying domain functionality
EP3979079A1 (en) Memory fault handling method and apparatus, device and storage medium
CA1168365A (en) Error control in a hierarchical system
CN110377469B (zh) 一种pcie设备的检测系统以及方法
CN105468484A (zh) 用于在存储系统中确定故障位置的方法和装置
US20240103961A1 (en) PCIe Fault Auto-Repair Method, Apparatus and Device, and Readable Storage Medium
CN102135925B (zh) 用于检测错误检查和纠正内存的方法和装置
US6263454B1 (en) Storage system
US20090217086A1 (en) Disk array apparatus, disk array control method and disk array controller
CN105117301A (zh) 一种内存预警的方法及装置
CN109597731A (zh) 一种处理器的状态测试方法
CN113961478A (zh) 一种内存故障记录方法以及装置
US5406540A (en) Optical disk recording performance
US7325117B2 (en) Storage system and storage control method
CN106648949B (zh) 一种存储系统及数据传输方法
CN111124785B (zh) 一种硬盘故障检查的方法、装置、设备及存储介质
CA2307212A1 (en) Automatic backup based on disk drive condition
CN117724885A (zh) 链路监测方法、装置、电子设备及存储介质
CN111586129A (zh) 针对数据同步的报警方法、装置、电子设备及存储介质
US20030101020A1 (en) Devices connected to fiber channels and margin test method for the devices, and method for specifying problems in system having devices connected to fiber channels
US7844863B2 (en) Ramped error logging system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination