CN118055013A - 一种带宽故障检测方法、装置、设备及机器可读存储介质 - Google Patents
一种带宽故障检测方法、装置、设备及机器可读存储介质 Download PDFInfo
- Publication number
- CN118055013A CN118055013A CN202410343146.XA CN202410343146A CN118055013A CN 118055013 A CN118055013 A CN 118055013A CN 202410343146 A CN202410343146 A CN 202410343146A CN 118055013 A CN118055013 A CN 118055013A
- Authority
- CN
- China
- Prior art keywords
- bandwidth
- checking
- confirming
- fault
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 230000009467 reduction Effects 0.000 claims abstract description 88
- 230000002159 abnormal effect Effects 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000004044 response Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 9
- 238000007689 inspection Methods 0.000 claims description 6
- 238000012384 transportation and delivery Methods 0.000 claims description 6
- 238000012015 optical character recognition Methods 0.000 description 32
- 238000012360 testing method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000003745 diagnosis Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000012423 maintenance Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000011835 investigation Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000007254 oxidation reaction Methods 0.000 description 3
- 238000013024 troubleshooting Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000005299 abrasion Methods 0.000 description 2
- 238000005452 bending Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003647 oxidation Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Landscapes
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本公开提供一种带宽故障检测方法、装置、设备及机器可读存储介质,该方法包括:获取包括于服务器的目标设备的当前连接带宽数据,根据预设目标值判断所述当前连接带宽数据是否达到预期;获取目标设备对应的PCIe bus号;按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置;根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置。通过本公开的技术方案,自动化地检测目标设备是否发生降带宽故障及故障可能发生的大致位置,并进一步排查该位置中是否存在异常状态以得到故障检测结果和/或故障发生位置,检测准确且效率高,节约人力并提高用户体验。
Description
技术领域
本公开涉及通信技术领域,尤其是涉及一种带宽故障检测方法、装置、设备及机器可读存储介质。
背景技术
服务器设备在项目验收测试阶段中经常出现各种各样的降带宽现象,一方面是设备运输过程中颠簸导致线缆松动,另一方面是设备组件物理状态出现故障。目前比较常用的排查手段较为传统,过度依赖于现场运维人员的经验,手工验证过程较为机械化。
对于大型服务器验收场景,当出现多台设备降带宽且运维人员不足的情况下是十分严重的,会带来运维人员大量的人力时间成本投入以及削弱用户对该服务器体验。
发明内容
有鉴于此,本公开提供一种带宽故障检测方法、装置及电子设备、机器可读存储介质,以改善上述目标设备降带宽故障检测困难的问题。
具体地技术方案如下:
本公开提供了一种带宽故障检测方法,应用于服务器,所述方法包括:获取包括于服务器的目标设备的当前连接带宽数据,根据预设目标值判断所述当前连接带宽数据是否达到预期;响应于关联于所述目标设备的连接带宽未达预期的事件,获取目标设备对应的PCIe bus号;根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置;根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置。
作为一种技术方案,所述根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置,包括:根据预设关键点划分数据链路为若干划分段,逐段获取当前划分段的当前带宽数据,比对获取与理论带宽值的比较关系,根据比较关系确认起始降带宽位置。
作为一种技术方案,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是CPU部分的事件,确认待排查的目标CPU,获取目标CPU的出厂检测图,获取标准CPU的OCR识别图,比对所述出厂检测图和所述OCR识别图,排查出厂检测图相较于OCR识别图是否存在异常状态,根据排查结果确认故障位置。
作为一种技术方案,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是CPU到Switch板的链路的事件,根据预设bus顺序和槽位的映射关系,确认存在异常状态的线缆,排查该线缆并根据排查结果确认故障位置。
作为一种技术方案,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是Switch到中置背板的链路的事件,根据OCR图像比对Switch到中置背板的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
作为一种技术方案,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是中置背板到目标设备模组的链路的事件,根据OCR图像比对中置背板到目标设备模组的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
本公开同时提供了一种带宽故障检测装置,应用于服务器,所述装置包括:第一模块,用于获取包括于服务器的目标设备的当前连接带宽数据,根据预设目标值判断所述当前连接带宽数据是否达到预期;第二模块,用于响应于关联于所述目标设备的连接带宽未达预期的事件,获取目标设备对应的PCIe bus号,根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置;第三模块,用于根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置。
作为一种技术方案,所述根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置,包括:根据预设关键点划分数据链路为若干划分段,逐段获取当前划分段的当前带宽数据,比对获取与理论带宽值的比较关系,根据比较关系确认起始降带宽位置。
作为一种技术方案,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是CPU部分的事件,确认待排查的目标CPU,获取目标CPU的出厂检测图,获取标准CPU的OCR识别图,比对所述出厂检测图和所述OCR识别图,排查出厂检测图相较于OCR识别图是否存在异常状态,根据排查结果确认故障位置。
作为一种技术方案,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是CPU到Switch板的链路的事件,根据预设bus顺序和槽位的映射关系,确认存在异常状态的线缆,排查该线缆并根据排查结果确认故障位置。
作为一种技术方案,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是Switch到中置背板的链路的事件,根据OCR图像比对Switch到中置背板的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
作为一种技术方案,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是中置背板到目标设备模组的链路的事件,根据OCR图像比对中置背板到目标设备模组的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
本公开同时提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的带宽故障检测方法。
本公开同时提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的带宽故障检测方法。
本公开提供的上述技术方案至少带来了以下有益效果:
自动化地检测目标设备是否发生降带宽故障及故障可能发生的大致位置,并进一步排查该位置中是否存在异常状态以得到故障检测结果和/或故障发生位置,检测准确且效率高,节约人力并提高用户体验。
附图说明
为了更加清楚地说明本公开实施方式或者现有技术中的技术方案,下面将对本公开实施方式或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施方式,对于本领域普通技术人员来讲,还可以根据本公开实施方式的这些附图获得其他的附图。
图1是本公开一种实施方式中的带宽故障检测方法的流程图;
图2是本公开一种实施方式中的带宽故障检测装置的结构图;
图3是本公开一种实施方式中的带宽故障检测方法的流程图;
图4是本公开一种实施方式中的带宽故障检测方法的流程图;
图5是本公开一种实施方式中的电子设备的硬件结构图。
附图标记:第一模块21,第二模块22,第三模块23。
具体实施方式
在本公开实施方式使用的术语仅仅是出于描述特定实施方式的目的,而非限制本公开。本公开和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开实施方式可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在一种技术方案中,针对GPU降带宽问题,在出现问题后,收集操作系统log以及物理设备信息如lspci-vt和lspci-vvvxxx日志,人工根据物理链路查找降带宽源头,依据工作经验和产品设计手册手动进行故障点排查。该技术方案中,依靠使用者对产品设计的熟悉程度,手动查找可能的问题根因并依次通过单一变量法排查可能点。这种排查问题的手段过度依赖于专业技术人员,对于集群设备,出现多台降带宽等问题情况,需要投入大量的技术人力时间资源。从运维以及技服后期来看,维护成本较高,用户体验感较差。
有鉴于此,本公开提供一种带宽故障检测方法、装置及电子设备、机器可读存储介质,以改善上述目标设备降带宽故障检测困难的问题。
具体地技术方案如后述。
在一种实施方式中,本公开提供了一种带宽故障检测方法,应用于服务器,所述方法包括:获取包括于服务器的目标设备的当前连接带宽数据,根据预设目标值判断所述当前连接带宽数据是否达到预期;响应于关联于所述目标设备的连接带宽未达预期的事件,获取目标设备对应的PCIe bus号;根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置;根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置。
具体地,如图1,包括以下步骤:
步骤S11,获取包括于服务器的目标设备的当前连接带宽数据,根据预设目标值判断所述当前连接带宽数据是否达到预期;
首先,通过服务器管理系统,实时抓取并获取目标设备(例如GPU设备)当前的数据连接带宽使用情况数据。比如,GPU设备的实际带宽使用为64GB/s,而我们设定的理想目标值是128GB/s。如果当前实际带宽使用没有达到预设的目标值,即64GB/s<128GB/s,则认为该GPU设备的连接带宽未达到预期。
可以使用命令行工具如lspci来查看PCIe设备的当前连接状态,包括其工作在的带宽模式(如Gen 3x4表示第三代标准下的4通道模式)。可以利用硬件监控软件来获取更详细的带宽使用情况。如目标设备是一个NVIDIA的GPU,通过运行lspci-vvv|grep-i nvidia命令来获取该GPU的详细信息。输出显示当前连接带宽为PCIe 3.0x16,这是我们需要核实的当前连接带宽数据。
步骤S12,响应于关联于所述目标设备的连接带宽未达预期的事件,获取目标设备对应的PCIe bus号;
当检测到GPU设备的连接带宽未达到预期时,进一步深入硬件层级进行问题定位。操作系统或硬件管理系统会自动响应这一事件,获取与该GPU设备相关的PCI Express(PCIe)总线编号。例如,GPU设备可能通过PCIe bus 0进行关键数据传输。
如果当前连接带宽数据未达到预期(例如,预期是PCIe 3.0x16,而实际只有PCIe2.0x8),需要进一步诊断问题。这通常涉及到触发一个事件响应机制,该机制会记录事件并准备进行故障排查。在监控系统中,可以设置阈值告警。一旦GPU的实际连接带宽低于预设阈值,系统会自动记录该事件,并通知管理员或自动启动故障排查流程。
步骤S13,根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置;
根据获取到的PCIe bus 0编号,在这条数据链路上,按照预设的划分段,逐段分析和获取当前实际带宽数据,并将其与理论最大带宽值进行比较。比如,发现CPU到到Switch板的链路的实际带宽仅为理论最大带宽的50%,可以初步确定带宽下降的起始位置可能是CPU到到Switch板之间。
根据目标设备的PCIe bus号,沿着数据链路逐段检查每个部分的带宽使用情况。这通常涉及到比较每个链路段的当前带宽和理论最大带宽。如服务器有多个PCIe设备连接在不同的bus上。我们发现GPU连接在bus 4上,而bus 3和bus 4共享同一条上行链路到CPU。我们首先检查bus 3和bus 4的带宽使用情况,发现bus 3的带宽正常,而bus 4的带宽只有预期的一半。这表明降带宽的起始位置可能在bus 4。
步骤S14,根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置。
基于上述分析得出的起始降带宽位置(即CPU到到Switch板之间),依据预设的故障排查规则,对相关硬件设备、驱动程序或配置参数进行检查。根据起始降带宽位置,按照预设规则进行排查。这可能包括检查硬件连接、固件版本、驱动程序状态等。
上述实施方式,自动化地检测目标设备是否发生降带宽故障及故障可能发生的大致位置,并进一步排查该位置中是否存在异常状态以得到故障检测结果和/或故障发生位置,检测准确且效率高,节约人力并提高用户体验。可以系统地诊断和解决服务器中PCIe设备连接带宽未达预期的问题。这个过程不仅有助于快速定位问题,还能减少系统停机时间,并提高整体的系统性能和可靠性。
在一种实施方式中,所述根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置,包括:根据预设关键点划分数据链路为若干划分段,逐段获取当前划分段的当前带宽数据,比对获取与理论带宽值的比较关系,根据比较关系确认起始降带宽位置。
在一种实施方式中,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是CPU部分的事件,确认待排查的目标CPU,获取目标CPU的出厂检测图,获取标准CPU的OCR识别图,比对所述出厂检测图和所述OCR识别图,排查出厂检测图相较于OCR识别图是否存在异常状态,根据排查结果确认故障位置。
当确认起始降带宽位置指向的是CPU部分时,将目标锁定在特定的CPU单元。首先,获取该目标CPU在出厂时的检测报告或图像记录,同时获得标准CPU的光学字符识别(OCR)识别图作为参照基准。通过对比出厂检测图与OCR识别图,检查是否有元件缺失、损坏或安装不规范等异常状况。若发现二者存在明显差异,那么这些差异点很可能就是导致带宽不足的故障位置。在本实施方式中,标准CPU可以是库存的CPU良品,也可以是以其他方式确定的作为标准CPU的CPU。
在一种实施方式中,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是CPU到Switch板的链路的事件,根据预设bus顺序和槽位的映射关系,确认存在异常状态的线缆,排查该线缆并根据排查结果确认故障位置。
若起始降带宽位置位于CPU到Switch板的链路,根据预设的PCIe总线顺序和槽位的映射关系,能够精确定位到可能存在问题的线缆。例如,如果是在PCIe bus 3的第8至第11通道发现带宽骤降,那么就重点排查与之相对应的CPU与Switch间的高速信号线缆,检查线缆是否有物理损坏、接触不良或是规格不符等情况,通过详细的线缆测试和视觉检查,最终确定故障所在的具体线缆位置。
在一种实施方式中,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是Switch到中置背板的链路的事件,根据OCR图像比对Switch到中置背板的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
对于起始降带宽位置在Switch到中置背板的链路的情况,采用OCR技术对Switch与中置背板之间的连接器状态进行实时拍摄并转化为数字图像,然后将这些图像与出厂状态下的图像进行比对。如果发现当前连接器的状态(如针脚弯曲、氧化腐蚀、插接不到位等)与出厂状态有异,即可判定存在异常,进而锁定故障发生的具体连接件部位。
在一种实施方式中,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是中置背板到目标设备模组的链路的事件,根据OCR图像比对中置背板到目标设备模组的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
同理,如果起始降带宽位置在中置背板到目标设备模组的链路,同样通过OCR图像比对,核查中置背板与目标设备模组间连接器的实际状态与出厂状态是否一致。若发现连接件出现松动、变形、老化等异常现象,可立即锁定该连接件为故障位置,进而采取维修或替换措施以恢复系统的正常带宽性能。
在一种实施方式中,带宽测试结果不符合预期值时,测试程序自动收集系统log信息以及PCIe底层链路日志,通过智能降带宽故障诊断装置,分析出降带宽的源头和根因供用户快速定位检查,如图3,根据GPU厂商提供的带宽测试工具进行带宽测试。当带宽测试结果与厂商提供的实测值相符合时,输出带宽测试log文件;当带宽值异常时,启动故障诊断装置模块定位故障点,并输出实测带宽值和计算出来的降带宽原因点,供用户排查。
如图4,基于收集到的服务器系统下log信息以及PCIe设备物理链路与信号日志,根据降带宽设备所对应的bus号,顺着PCIe设备树树形结构,依次往前一个节点查找。利用lspci-vvvxxx日志中当前节点对应的LnkCap与LnkSta信息,进行对比当前节点带宽是否满足理论值,如x16或者x8,直至确定到lspci设备树中最起始降带宽的bus号。进一步地,将各个bus号归属划分为CPU部分、CPU到SWITCH板部分、CPU到中置背板部分、中置背板到模组部分等4大部分。当初始降带宽点处于CPU部分时,可以先确定是2路CPU中哪一个具体CPU,随后调取出厂CPU检测图和数据库中同型号CPU样品做OCR图片相似度识别,检查CPU物理状态是否存在异常,输出CPU相关排查点;当初始降带宽点处于CPU到Switch板之间部分时,根据预定的默认四组bus顺序和实际槽位的映射关系,确认某一组高速线缆存在问题,提示排查该组高速线缆是否磨损或松动等;当初始降带宽点处于Switch到中置背板之间时,利用OCR图像处理算法比对出厂硬件设备物理状态是否出现歪针,以及提示更换至其他正常的外框验证是Switch板还是中置背板的原因;当初始降带宽点处于中置背板到模组部分时,依托图像处理算法检测中置背板针脚是否存在歪针等异常,以及提示更换模组排查是否是模组内部故障等。
在一种实施方式中,当带宽测试结果显示不符合预期值时,智能运维系统会迅速介入,自动收集系统的整体运行日志以及PCIe底层链路详细的交互记录。结合专业的GPU厂商提供的带宽测试工具,对整个PCIe总线架构进行全面的带宽性能测试。一旦测试结果与GPU厂商给出的标准实测值相符,系统将自动生成并输出详细的带宽测试日志文件以供后续查阅和分析。
若带宽测试值出现异常,智能降带宽故障诊断装置会立即启动,通过深度学习和模式识别技术,精确分析并定位降带宽的根本原因,为用户提供明确的故障点指示。系统不仅会输出实测的异常带宽值,还会基于逻辑推理和数据分析,计算出降带宽的关键环节。
针对已知的服务器系统日志和PCIe物理链路与信号状态日志,通过查询lspci命令的详细输出信息,如LnkCap(链接能力)与LnkSta(链接状态)字段,逐步比对每一个PCIe设备节点的实际带宽是否达到其理论值(例如,是否满载运行在x16或x8模式),依此追踪到最开始出现带宽下降的PCIe bus号。
进一步细分,将PCIe总线路径划分为四大主要部分:CPU部分、CPU到Switch板部分、Switch板到中置背板部分、以及中置背板到目标设备模组部分。根据不同起始降带宽位置,采取不同的排查方法:
当降带宽源头位于CPU部分时,首先确认是哪颗CPU出现问题,接着调用出厂时的CPU检测图像并与同型号CPU的标准OCR图像进行对比,检查CPU封装、针脚、散热片等物理状态是否存在异常,生成针对CPU部分的排查指引报告。
如果问题出在CPU到Switch板之间的链路,根据预设的PCIe插槽与bus顺序对应关系,迅速定位到可能存在问题的高速线缆组,提醒用户检查该组线缆是否存在磨损、松动、断裂等影响信号传输质量的现象。
当初始降带宽点位于Switch板到中置背板部分时,运用先进的OCR图像处理技术,对比当前硬件设备状态与出厂时的原始物理状态,查看Switch板或中置背板接口处是否存在信号引脚歪斜、氧化等可能导致信号衰减的问题,并建议用户尝试更换其它已知正常的Switch板或中置背板以验证故障源。
当起始降带宽点处于中置背板到目标设备模组的部分时,同样利用图像处理技术,检测中置背板和目标设备模组接口处的针脚是否存在变形、污损等异常状况,并指导用户尝试更换目标设备模组以排除模组自身故障的可能性。
当使用GPU厂商提供的带宽测试工具进行测试后,如果结果不符合预期值,测试程序会自动执行以下步骤:收集系统日志,自动从服务器系统中收集系统log信息,这些信息可能包含系统错误、警告或其他与性能相关的事件记录;收集PCIe链路日志,同时,收集PCIe设备的物理链路和信号日志,这些日志提供了关于数据传输状态的详细信息。
接下来,通过智能降带宽故障诊断装置进行分析:分析降带宽源头,利用收集到的日志信息,智能诊断装置分析出降带宽的源头,可能是硬件故障、驱动问题或系统配置不当等;输出诊断结果,如果测试结果与厂商实测值相符,输出带宽测试log文件作为正常运行的证明。如果带宽值异常,诊断装置会输出实测带宽值和计算出的降带宽原因点,供用户进一步排查。
沿着PCIe设备树定位故障,通过lspci-vvv命令,确定起始降带宽的bus号,根据降带宽设备所对应的bus号,沿着PCIe设备树结构,依次向前一个节点查找,直至找到最起始降带宽的bus号;对比LnkCap与LnkSta信息,利用lspci-vvv命令输出的LnkCap(链路能力)与LnkSta(链路状态)信息,对比当前节点的带宽是否满足理论值(如x16或x8)。
CPU部分排查,如果初始降带宽点在CPU部分,首先确定是哪一路CPU出现问题。然后,使用OCR图片相似度识别技术,比对出厂CPU检测图和数据库中的同型号CPU样品图像,检查物理状态是否存在异常,如针脚弯曲或损坏,并输出相关排查点。如,假设服务器配置了双路CPU,通过OCR比对发现CPU B的某个针脚与标准图像有偏差,提示用户检查CPU B。
CPU到Switch板之间排查,如果初始降带宽点在CPU到Switch板之间,根据bus顺序和槽位映射关系,确定可能存在问题的高速线缆。提示用户检查该线缆是否磨损或松动,并建议进行必要的更换或重新连接。如,在排查过程中,发现连接到bus 7的高速线缆可能存在问题。用户被提示检查并更换该线缆。
Switch到中置背板之间排查,如果初始降带宽点在Switch到中置背板之间,使用OCR图像处理算法比对出厂硬件设备物理状态,检查是否存在歪针等硬件损坏,并提示用户更换至其他正常的外框进行验证,以确定是Switch板还是中置背板的问题。如,通过图像比对发现中置背板的连接针脚有歪斜,用户被建议更换中置背板或Switch板进行进一步验证。
中置背板到模组部分排查,如果初始降带宽点在中置背板到模组部分,利用图像处理算法检测中置背板针脚是否存在歪针等异常,并提示用户更换模组,以排查是否是模组内部故障。如,检测到连接GPU模组的中置背板针脚有异常,用户被建议更换GPU模组,以确定问题是否出在模组本身。
自动化检测目标设备是否存在降带宽故障及其大致位置是一项关键的运维功能,旨在实现高效精准的故障定位与诊断。这一过程充分利用了先进的软件算法和硬件监控技术,实时监测PCIe链路的状态信息,并与正常基准数据进行对比分析。一旦检测到带宽性能低于预期阈值,系统会即刻触发智能诊断流程,通过集成的自动化日志收集模块,快速抓取包括系统级日志、硬件状态日志以及PCIe链路详细通信记录在内的多维度信息。
这套系统能够根据带宽损耗的程度和变化趋势,初步判断出潜在故障发生的层级和范围,比如是处于CPU直连部分、经过Switch板的转发部分,或是延伸至中置背板及模块连接段。借助于专用的故障诊断算法和设备属性解析技术,能够深入细致地分析每个层级中的可能故障源,比如通过比较lspci输出的LnkCap与LnkSta信息,来验证实际带宽配置与设计规格的匹配程度,进而锁定降带宽的具体链路环节。
此外,对于可能的故障位置,系统还具备智能化的图像识别与分析能力,能对涉及的物理连接部件如高速线缆、CPU封装、Switch板接口、中置背板和模组针脚等进行精细化检测,寻找诸如针脚歪斜、接触不良、磨损、氧化等可能导致带宽降低的异常状态。
整个检测过程无需过多人工干预,从而显著节省了技术人员现场排查的时间成本,极大地提高了故障定位和修复的效率。同时,由于自动化检测的准确性高,减少了误报和漏报的情况,使得最终用户获得更为流畅、稳定的服务体验,有效提升了数据中心或高性能计算环境的整体运营水平和客户满意度。
在一种实施方式中,如图2,本公开同时提供了一种带宽故障检测装置,应用于服务器,所述装置包括:第一模块,用于获取包括于服务器的目标设备的当前连接带宽数据,根据预设目标值判断所述当前连接带宽数据是否达到预期;第二模块,用于响应于关联于所述目标设备的连接带宽未达预期的事件,获取目标设备对应的PCIe bus号,根据PCIebus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置;第三模块,用于根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置。
在一种实施方式中,所述根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置,包括:根据预设关键点划分数据链路为若干划分段,逐段获取当前划分段的当前带宽数据,比对获取与理论带宽值的比较关系,根据比较关系确认起始降带宽位置。
在一种实施方式中,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是CPU部分的事件,确认待排查的目标CPU,获取目标CPU的出厂检测图,获取标准CPU的OCR识别图,比对所述出厂检测图和所述OCR识别图,排查出厂检测图相较于OCR识别图是否存在异常状态,根据排查结果确认故障位置。
在一种实施方式中,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是CPU到Switch板的链路的事件,根据预设bus顺序和槽位的映射关系,确认存在异常状态的线缆,排查该线缆并根据排查结果确认故障位置。
在一种实施方式中,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是Switch到中置背板的链路的事件,根据OCR图像比对Switch到中置背板的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
在一种实施方式中,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:响应于确认起始降带宽位置是中置背板到目标设备模组的链路的事件,根据OCR图像比对中置背板到目标设备模组的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
装置实施方式与对应的方法实施方式相同或相似,在此不再赘述。
在一种实施方式中,本公开提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的带宽故障检测方法,从硬件层面而言,硬件架构示意图可以参见图5所示。
在一种实施方式中,本公开提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的带宽故障检测方法。
这里,机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本公开时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本公开的实施方式可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本公开实施方式可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域技术人员应明白,本公开的实施方式可提供为方法、系统或计算机程序产品。因此,本公开可以采用完全硬件实施方式、完全软件实施方式、或者结合软件和硬件方面的实施方式的形式。而且,本公开可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本公开的实施方式而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。
Claims (14)
1.一种带宽故障检测方法,其特征在于,应用于服务器,所述方法包括:
获取包括于服务器的目标设备的当前连接带宽数据,根据预设目标值判断所述当前连接带宽数据是否达到预期;
响应于关联于所述目标设备的连接带宽未达预期的事件,获取目标设备对应的PCIebus号;
根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置;
根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置。
2.根据权利要求1所述的方法,其特征在于,所述根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置,包括:
根据预设关键点划分数据链路为若干划分段,逐段获取当前划分段的当前带宽数据,比对获取与理论带宽值的比较关系,根据比较关系确认起始降带宽位置。
3.根据权利要求1所述的方法,其特征在于,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:
响应于确认起始降带宽位置是CPU部分的事件,确认待排查的目标CPU,获取目标CPU的出厂检测图,获取标准CPU的OCR识别图,比对所述出厂检测图和所述OCR识别图,排查出厂检测图相较于OCR识别图是否存在异常状态,根据排查结果确认故障位置。
4.根据权利要求1所述的方法,其特征在于,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:
响应于确认起始降带宽位置是CPU到Switch板的链路的事件,根据预设bus顺序和槽位的映射关系,确认存在异常状态的线缆,排查该线缆并根据排查结果确认故障位置。
5.根据权利要求1所述的方法,其特征在于,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:
响应于确认起始降带宽位置是Switch到中置背板的链路的事件,根据OCR图像比对Switch到中置背板的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
6.根据权利要求1所述的方法,其特征在于,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:
响应于确认起始降带宽位置是中置背板到目标设备模组的链路的事件,根据OCR图像比对中置背板到目标设备模组的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
7.一种带宽故障检测装置,其特征在于,应用于服务器,所述装置包括:
第一模块,用于获取包括于服务器的目标设备的当前连接带宽数据,根据预设目标值判断所述当前连接带宽数据是否达到预期;
第二模块,用于响应于关联于所述目标设备的连接带宽未达预期的事件,获取目标设备对应的PCIe bus号,根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置;
第三模块,用于根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置。
8.根据权利要求7所述的装置,其特征在于,所述根据PCIe bus号在关联的数据链路上按照预设划分段,逐段获取当前带宽数据与理论带宽值的比较关系,根据比较关系确认起始降带宽位置,包括:
根据预设关键点划分数据链路为若干划分段,逐段获取当前划分段的当前带宽数据,比对获取与理论带宽值的比较关系,根据比较关系确认起始降带宽位置。
9.根据权利要求7所述的装置,其特征在于,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:
响应于确认起始降带宽位置是CPU部分的事件,确认待排查的目标CPU,获取目标CPU的出厂检测图,获取标准CPU的OCR识别图,比对所述出厂检测图和所述OCR识别图,排查出厂检测图相较于OCR识别图是否存在异常状态,根据排查结果确认故障位置。
10.根据权利要求7所述的装置,其特征在于,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:
响应于确认起始降带宽位置是CPU到Switch板的链路的事件,根据预设bus顺序和槽位的映射关系,确认存在异常状态的线缆,排查该线缆并根据排查结果确认故障位置。
11.根据权利要求7所述的装置,其特征在于,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:
响应于确认起始降带宽位置是Switch到中置背板的链路的事件,根据OCR图像比对Switch到中置背板的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
12.根据权利要求7所述的装置,其特征在于,所述根据起始降带宽位置,按照预设规则排查异常状态,根据排查结果确认故障位置,包括:
响应于确认起始降带宽位置是中置背板到目标设备模组的链路的事件,根据OCR图像比对中置背板到目标设备模组的连接件当前状态与出厂状态,根据比对结果排查连接件当前是否存在异常,根据排查结果确认故障位置。
13.一种电子设备,其特征在于,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令,以实现权利要求1-6任一所述的方法。
14.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410343146.XA CN118055013A (zh) | 2024-03-25 | 2024-03-25 | 一种带宽故障检测方法、装置、设备及机器可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410343146.XA CN118055013A (zh) | 2024-03-25 | 2024-03-25 | 一种带宽故障检测方法、装置、设备及机器可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118055013A true CN118055013A (zh) | 2024-05-17 |
Family
ID=91048455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410343146.XA Pending CN118055013A (zh) | 2024-03-25 | 2024-03-25 | 一种带宽故障检测方法、装置、设备及机器可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118055013A (zh) |
-
2024
- 2024-03-25 CN CN202410343146.XA patent/CN118055013A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111459695A (zh) | 根因定位方法、装置、计算机设备和存储介质 | |
KR102123522B1 (ko) | 고장 데이터의 군집에 기반한 고장 진단 방법 | |
CN109725220B (zh) | 一种变压器油冷却回路的检测方法、系统及装置 | |
CN114460439A (zh) | 一种数字集成电路测试系统 | |
CN110580220B (zh) | 测量代码段执行时间的方法及终端设备 | |
CN117421217A (zh) | 一种软件功能自动测试方法、系统、终端及介质 | |
CN110275878B (zh) | 业务数据检测方法、装置、计算机设备及存储介质 | |
US7184932B1 (en) | Reliability prediction for complex components | |
CN111522725A (zh) | Ssd性能自动评估方法、装置、设备及介质 | |
CN113535538A (zh) | 应用全链路自动化测试方法、装置、电子设备和存储介质 | |
CN109522263B (zh) | 一种i2c链路监控系统 | |
CN106294109B (zh) | 获取缺陷代码的方法及装置 | |
CN118055013A (zh) | 一种带宽故障检测方法、装置、设备及机器可读存储介质 | |
CN111309584B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN111506455A (zh) | 服务发布结果的查验方法及装置 | |
CN116008787A (zh) | 待测器件dut异常识别方法、装置及设备 | |
CN115080342A (zh) | 一种电源板卡试验数据自动处理方法及系统 | |
CN112346920A (zh) | 一种集成电路测试数据分析方法及系统 | |
CN112327800A (zh) | 车辆检测方法、装置及诊断设备 | |
CN117250942B (zh) | 故障预测方法、模型的确定方法、装置、设备及存储介质 | |
CN116340046B (zh) | 一种芯粒故障检测方法和装置 | |
CN117472629B (zh) | 一种电子信息系统多故障诊断方法及系统 | |
CN116755731B (zh) | 一种基于车载多媒体系统升级的自动测试方法 | |
CN117591355A (zh) | 硬盘故障的诊断方法、诊断装置、计算机设备及存储介质 | |
CN116298782A (zh) | 一种故障检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |