CN117573455B - 一种pcie设备检测系统、方法、装置及产品 - Google Patents
一种pcie设备检测系统、方法、装置及产品 Download PDFInfo
- Publication number
- CN117573455B CN117573455B CN202410063487.1A CN202410063487A CN117573455B CN 117573455 B CN117573455 B CN 117573455B CN 202410063487 A CN202410063487 A CN 202410063487A CN 117573455 B CN117573455 B CN 117573455B
- Authority
- CN
- China
- Prior art keywords
- bandwidth
- speed serial
- expansion bus
- serial computer
- computer expansion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 141
- 238000000034 method Methods 0.000 title claims description 45
- 230000009467 reduction Effects 0.000 claims abstract description 30
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000012423 maintenance Methods 0.000 abstract description 4
- 230000008439 repair process Effects 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 230000015556 catabolic process Effects 0.000 description 10
- 238000006731 degradation reaction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
- G06F11/2221—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/26—Functional testing
- G06F11/263—Generation of test inputs, e.g. test vectors, patterns or sequences ; with adaptation of the tested hardware for testability with external testers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/26—Functional testing
- G06F11/273—Tester hardware, i.e. output processing circuits
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及PCIE设备技术领域,公开了一种PCIE设备检测系统、方法、装置及产品。该PCIE设备检测系统至少包括CPLD,该CPLD包括:控制单元,用于获取PCIE设备在检测周期内发送的在位信息;在位信息包括PCIE设备上所有在位检测引脚的在位信号;解析单元,用于从在位信息中获取所有在位信号,基于在位信号确定PCIE设备的实际带宽;判断单元,用于根据预设带宽与实际带宽,判断PCIE设备是否发生倾斜。采用本系统能够实现当设备出现降带宽问题时,在不拆开服务器箱盖重新插拔PCIE设备的情况下,快速准确地判定设备是否发生倾斜,极大地提升故障排查效率,节约修复时间,降低设备的维护成本。
Description
技术领域
本申请涉及PCIE设备技术领域,特别是涉及一种PCIE设备检测系统、方法、装置及产品。
背景技术
PCIE(Peripheral Component Interconnect Express)是一种高速串行计算机扩展总线标准,高速串行计算机扩展总线(PCIE)设备作为连接互联网的重要部件外设,大量应用在服务器中。以PCIE网卡为例,PCIE网卡通过插槽与主板连接,实现高速的数据传输和网络连接功能,以满足大规模的数据处理和分布式计算需求,提升服务器进行数据传输的效率。在服务器的应用场景中,对设备降带宽的检测是一个重要的部分。在机房、集群等超多服务器存在的环境下,PCIE设备的组装、替换,客户业务的日常运维或者运输搬动造成的PCIE网卡振动与倾斜等干扰的情况愈渐增多,尤其对于长期处于恶劣环境的边缘服务器,无法避免的因不可抗力因素对设备形成扰动,造成设备降带宽,数据传输速率下降,传输错误率增加,影响网络设备的互操作性等问题。因此,对设备降带宽的问题进行检测是维护业务正常运行的重要环节。
目前设备降带宽检测是通过BIOS(Basic Input/Output System,基本输入输出系统)进行的,服务器开机时BIOS会对设备进行开机自检,若设备出现异常降带宽的问题,则需要确定引起降带宽的原因,PCIE设备发生倾斜(接触不良)是导致降带宽的原因之一。在PCIE总线中,在位检测信号线连接到PCIE设备的在位检测引脚,当引脚插入插槽并正常工作时,引脚的电平被拉低,在位信号为低电平表示设备在位(安装正确);如果引脚未正常插入或工作时出现故障,则引脚的电平会被拉高,在位信号为高电平表示设备不在位。在检测设备是否发生倾斜时,BIOS采集设备的在位信号并在主板端“线与”后传送给BMC(Baseboard Manager Controller,基板管理控制器),由BMC判断设备是否在位。但是,当PCIE设备发生倾斜时,存在一部分在位信号为低电平,一部分为高电平的情况,此时线与的结果还是低电平,BMC判断设备安装正确,不会产生告警提示,因此无法判断出设备倾斜的问题。这种情况下,需要停止业务运行,打开服务器机箱重新插拔PCIE设备进行排查。服务器在运行期间处于封闭模式,机箱盖不易打开,且PCIE设备不易插拔,这种方式操作步骤繁琐且效率低下,对于边缘服务器来说操作更加困难,耗费大量时间与成本,严重影响业务正常运行。因此,需要找到一种能够快速检测PCIE设备是否发生倾斜的方法,提高对设备进行故障排查的效率。
发明内容
有鉴于此,本申请旨在提出一种PCIE设备检测系统、方法、装置及产品,以实现对PCIE设备是否发生倾斜的快速检测。
为达到上述目的,本申请的技术方案如下:
本申请实施例第一方面提供一种高速串行计算机扩展总线设备检测系统,所述系统至少包括复杂可编程逻辑器件,所述复杂可编程逻辑器件包括:
控制单元,用于获取高速串行计算机扩展总线设备在检测周期内发送的在位信息;所述在位信息包括所述高速串行计算机扩展总线设备上所有在位检测引脚的在位信号;
解析单元,用于从所述在位信息中获取所有在位信号,基于所述在位信号确定所述高速串行计算机扩展总线设备的实际带宽;
判断单元,用于根据预设带宽与所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜。
可选地,所述复杂可编程逻辑器件还包括寄存器,用于存储所述在位信息及所述预设带宽;
所述解析单元,还用于根据所述高速串行计算机扩展总线设备的在位信号的总数,确定所述高速串行计算机扩展总线设备的规格;将所述高速串行计算机扩展总线设备的规格所对应的出厂带宽作为所述预设带宽,存储到所述寄存器中。
可选地,所述解析单元具体用于执行以下步骤:
获取所有在位信号中低电平的在位信号数量;
根据所述低电平的在位信号数量、在位信号的总数及所述预设带宽,计算所述高速串行计算机扩展总线设备的实际带宽。
可选地,所述判断单元,具体用于执行以下步骤:
比较所述实际带宽与所述预设带宽的大小;若所述实际带宽小于所述预设带宽,则判定所述高速串行计算机扩展总线设备处于降带宽状态;当所述高速串行计算机扩展总线设备处于降带宽状态时,若在位信号存在高电平,则判定所述高速串行计算机扩展总线设备发生倾斜。
可选地,所述控制单元,用于在多个连续的检测周期内,接收所述高速串行计算机扩展总线设备发送的在位信息;
所述解析单元,用于确定所述高速串行计算机扩展总线设备在每个检测周期内的实际带宽;
所述判断单元,用于在每个检测周期内,比较所述高速串行计算机扩展总线设备的实际带宽与所述预设带宽的大小;若所述实际带宽小于所述预设带宽,则判定所述高速串行计算机扩展总线设备处于降带宽状态:当所述高速串行计算机扩展总线设备处于降带宽状态的时长达到第一阈值时,若在位信号存在高电平,则判定所述高速串行计算机扩展总线设备发生倾斜。
可选地,所述控制单元,还用于在所述高速串行计算机扩展总线设备处于降带宽状态时,生成带宽告警信号;当高速串行计算机扩展总线设备发生倾斜时,生成解除倾斜请求信号。
可选地,所述复杂可编程逻辑器件还包括故障点灯单元;
所述控制单元,还用于在所述高速串行计算机扩展总线设备处于降带宽状态时,生成故障点灯信号,并发送给所述故障点灯单元;
所述故障点灯单元,用于根据所述故障点灯信号,在对应位置进行点灯告警。
可选地,所述控制单元还用于执行以下步骤:
配置数据采集指令,所述数据采集指令包括:数据加载使能信号及时钟信号;所述数据采集指令用于采集所述高速串行计算机扩展总线设备的在位信息;
在一个检测周期中,向所述高速串行计算机扩展总线设备发送所述数据采集指令,并接收所述高速串行计算机扩展总线设备发送的在位信息。
可选地,所述的高速串行计算机扩展总线设备检测系统,还包括基板管理控制器;
所述控制单元,还用于将所述带宽告警信号及所述解除倾斜请求信号存储在所述寄存器中;
所述基板管理控制器,用于从所述寄存器中读取所述带宽告警信号及所述解除倾斜请求信号,生成告警提示。
可选地,所述基板管理控制器,还用于从所述寄存器中读取当前检测的周期对应的带宽告警信号、解除倾斜请求信号及所有在位信号,并记录高速串行计算机扩展总线故障日志。
根据本申请实施例的第二方面,提供一种高速串行计算机扩展总线设备检测方法,所述方法应用于本申请实施例第一方面所提供的高速串行计算机扩展总线设备检测系统,该方法包括:
采集高速串行计算机扩展总线设备的在位信息;所述在位信息包括所述高速串行计算机扩展总线设备上所有在位检测引脚的在位信号;
从所述在位信息中获取所有在位信号,基于所述在位信号确定所述高速串行计算机扩展总线设备的实际带宽;
根据预设带宽及所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜。
可选地,所述高速串行计算机扩展总线设备检测方法,还包括:
根据所述高速串行计算机扩展总线设备的在位信号的总数,确定所述高速串行计算机扩展总线设备的规格;
根据所述高速串行计算机扩展总线设备的规格获取对应的出厂带宽,将所述出厂带宽作为所述预设带宽。
可选地,基于所述在位信号确定所述高速串行计算机扩展总线设备的实际带宽,包括:
获取所有在位信号中低电平的在位信号数量;
根据所述低电平的在位信号数量、在位信号的总数及所述预设带宽,计算所述高速串行计算机扩展总线设备的实际带宽。
可选地,根据预设带宽及所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜,包括:
比较所述实际带宽与所述预设带宽的大小;
若所述实际带宽小于所述预设带宽,则判定所述高速串行计算机扩展总线设备处于降带宽状态;
当所述高速串行计算机扩展总线设备处于降带宽状态时,若在位信号存在高电平,则判定所述高速串行计算机扩展总线设备发生倾斜。
可选地,根据预设带宽及所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜,包括:
在多个连续的检测周期内,获取所述高速串行计算机扩展总线设备的实际带宽;
比较每个检测周期内实际带宽与所述预设带宽的大小;
若所述实际带宽小于所述预设带宽,则判定所述高速串行计算机扩展总线设备处于降带宽状态:
当所述高速串行计算机扩展总线设备处于降带宽状态的时长达到第一阈值时,若在位信号存在高电平,则判定所述高速串行计算机扩展总线设备发生倾斜。
可选地,所述高速串行计算机扩展总线设备检测方法,还包括:
当判定所述高速串行计算机扩展总线设备处于降带宽状态时,生成带宽告警信号;
当高速串行计算机扩展总线设备发生倾斜时,生成解除倾斜请求信号;
基于所述带宽告警信号及所述解除倾斜请求信号,生成告警提示。
可选地,所述高速串行计算机扩展总线设备检测方法,还包括:
当判定所述高速串行计算机扩展总线设备处于降带宽状态时,生成故障点灯信号;
根据所述故障点灯信号,在对应位置进行点灯告警。
可选地,获取所述高速串行计算机扩展总线设备的在位信号总数,包括:
配置数据采集指令,所述数据采集指令包括:数据加载使能信号及时钟信号;所述数据采集指令用于采集所述高速串行计算机扩展总线设备的在位信息;
在一个检测周期中,向所述高速串行计算机扩展总线设备发送所述数据采集指令,并接收所述高速串行计算机扩展总线设备在检测周期内发送的在位信息;所述在位信息包括所述高速串行计算机扩展总线设备上所有在位检测引脚的在位信号;
根据所述在位信息,确定所述高速串行计算机扩展总线设备的在位信号总数。
可选地,所述的高速串行计算机扩展总线设备检测方法,还包括:
根据当前的检测周期对应的带宽告警信号、解除倾斜请求信号及所有在位信号,记录高速串行计算机扩展总线故障日志。
根据本申请实施例的第三方面,提供一种高速串行计算机扩展总线设备检测装置,用于实现本申请实施例的第二方面所提供的高速串行计算机扩展总线设备检测方法,所述装置包括:
信号采集模块,被配置为采集高速串行计算机扩展总线设备的在位信息;所述在位信息包括所述高速串行计算机扩展总线设备上所有在位检测引脚的在位信号;
带宽获取模块,被配置为从所述在位信息中获取所有在位信号,基于所述在位信号确定所述高速串行计算机扩展总线设备的实际带宽;
判断模块,被配置为根据预设带宽及所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如本申请实施例第二方面所述的高速串行计算机扩展总线设备检测方法中的步骤。
根据本申请实施例的第五方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本申请实施例第二方面所述的高速串行计算机扩展总线设备检测方法中的步骤。
采用本申请所提供的高速串行计算机扩展总线设备检测系统,通过CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑器件)主动采集PCIE设备的在位信息,基于所有在位信号确定PCIE设备当前的实际带宽,将PCIE设备的预设带宽与实际带宽进行比较,从而判断设备是否出现降带宽的问题,以及PCIE设备是否发生倾斜。与传统的降带宽故障检测方式相比,本申请能够实现当设备出现降带宽问题时,在不拆开服务器箱盖重新插拔PCIE设备的情况下,快速准确地判定设备是否发生倾斜,极大地提升故障排查效率,节约修复时间,降低设备的维护成本。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的高速串行计算机扩展总线(PCIE)设备检测系统的示意图;
图2是本申请一实施例提出的PCIE设备检测系统的硬件架构示意图;
图3是本申请一实施例提出的PCIE设备检测方法的流程图;
图4是本申请一实施例中检测PCIE设备是否发生倾斜的流程图;
图5是本申请一实施例提出的PCIE设备检测装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本申请的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
传统的BIOS降带宽检测方式中,主板端BIOS通过2通道PCA9641的I2C-bus masterarbiter轮询访问PCIE设备,在CPU与PCIE设备的链接过程中,获取PCIE设备当前的实际可用带宽。操作人员根据PCIE设备的型号规格查询到PCIE设备的出厂理论带宽,然后将该理论带宽与BIOS读取到的实际带宽进行对比,若二者不匹配则判定设备出现降带宽问题。但降带宽的原因有多种,其中设备接触不良占比极高,外在表现就是设备出现倾斜或者插槽存在异物干扰等。设备倾斜使在位信号的一端与引脚接触,拉低为低电平,另外一端因倾斜未接触到插槽针脚,信号被拉高,最终在位信号的线与结果表现为低电平,BMC读取到的是所有在位信号线与的结果,即,在设备倾斜的情况下BMC会判定设备正常在位。因此在传统的检测方法中,如果要排除设备倾斜的因素,需要重新插拔设备才能实现,这导致故障排查的任务量巨大,造成成本浪费。
本申请公开的PCIE设备检测系统,通过CPLD的寄存器直接读取PCIE在位信号并利用自判断机制对设备是否倾斜进行判断,无需再通过BIOS进行检测,BMC也无需获取在位信号的线与的资源,节省了BIOS和BMC与插槽交互链接的链路资源,同时减少了PCB上走线数量及逻辑与门芯片的使用,降低了硬件成本。
下面将参考附图并结合实施例来详细说明本申请。
图1是本申请一实施例提出的高速串行计算机扩展总线(PCIE)设备检测系统100的示意图。如图1所示,该系统100至少包括CPLD;所述CPLD包括:
控制单元101,用于获取PCIE设备在检测周期内发送的在位信息;所述在位信息包括所述PCIE设备上所有在位检测引脚的在位信号;
解析单元102,用于从所述在位信息中获取所有在位信号,基于所述在位信号确定所述PCIE设备的实际带宽;
判断单元103,用于根据预设带宽与所述实际带宽,判断所述PCIE设备是否发生倾斜。
本实施例中,PCIE设备检测系统通过CPLD主动获取PCIE设备的内部在位信号数据,基于在位信号确定该PCIE设备当前的实际带宽,然后根据实际带宽数据与预设带宽判断PCIE设备是否发生倾斜。利用CPLD并行处理数据的优势,整合PCIE设备的实际带宽和预设带宽两组数据进行比对,根据自判断机制对该设备是否发生倾斜进行判定。相比于传统方法中BIOS开机自检的检测方式,本系统能够更快速、更准确地判定PCIE设备是否发生倾斜。
作为本申请的一种实施方式,所述CPLD还包括寄存器,用于存储所述在位信息及所述预设带宽;
所述解析单元,还用于根据所述PCIE设备的在位信号的总数,确定所述PCIE设备的规格;将所述PCIE设备的规格所对应的出厂带宽作为所述预设带宽,存储到所述寄存器中。
在一种实施例中,解析单元从在位信息中获取在位信号,并根据在位信号的数量确定该PCIE设备的规格。由于服务器产品的多元化,支持的PCIE种类越来越多,以PCIE网卡为例,包括NIC、HCA、HBA、CAN等类型,常见的PCIE网卡主要有PCIE X1、PCIE X2、PCIE X4、PCIE X8、PCIE X16等规格。不同PCIE网卡的规格对应了不同的通道数量和带宽支持,例如,X8规格的PCIE网卡具有4个在位信号,并且X8规格的PCIE网卡对应的带宽为3814.72MB/s。本实施例中,解析单元根据在位信号的总数(例如总数为4)即可确定PCIE设备的规格(例如X8),进而获取该设备的出厂带宽,将出厂带宽作为预设带宽存储到寄存器中。
可选地,在一种实施例中,为了提高检测效率,可根据服务器中使用的PCIE设备的型号,预先确定在位信号的总数和对应的出厂带宽数据并构建带宽查询表,解析单元从在位信息中获取在位信号的总数,根据在位信号的总数在带宽查询表中查找对应的带宽数据,并作为预设带宽数据存储到寄存器中。
作为本申请的一种实施方式,所述解析单元具体用于执行以下步骤:
获取所有在位信号中低电平的在位信号数量;
根据所述低电平的在位信号数量、在位信号的总数及所述预设带宽,计算所述PCIE设备的实际带宽。
本实施例中,CPLD通过轮询方式获取PCIE设备的在位信号的电平信息,并根据高低电平计算实际带宽。在位信号为低电平表示该在位信号对应的在位检测引脚能够正常运作,在位信号为高电平表示该在位信号对应的在位检测引脚出现故障,没有正常运行。PCIE设备的在位信号中,低电平的在位信号数量与PCIE设备的实际带宽具有一定比例关系,高电平的在位信号数量与损失的带宽大小具有比例关系。因此,通过确定PCIE设备中当前在位信号中低电平的在位信号数量,结合在位信号的总数及设备的预设带宽,即可计算得到PCIE设备当前的实际带宽。
具体地,PCIE设备的实际带宽可采用以下表达式计算:
实际带宽=低电平在位信号数量÷在位信号总数×理论带宽值。
例如,在对X8规格的PCIE设备进行检测时,获取到在位信号总数为4个,其中3个在位信号为低电平,1个在位信号为高电平,此时,根据X8设备的出厂带宽值3814.72MB/s可以计算当前设备的实际带宽为:3÷4×3814.72=2861.04 MB/s。
本实施例中,解析单元在计算得到设备当前的实际带宽后,将该实际带宽数据存储到寄存器中方便读取。
作为本申请的一种实施方式,所述判断单元,具体用于执行以下步骤:
比较所述实际带宽与所述预设带宽的大小;若所述实际带宽小于所述预设带宽,则判定所述PCIE设备处于降带宽状态;当所述PCIE设备处于降带宽状态时,若在位信号存在高电平,则判定所述PCIE设备发生倾斜。
本实施例中,利用CPLD并行处理数据的特性,通过判断单元从寄存器中读取PCIE设备的预设带宽数据和当前的实际带宽数据,然后对两个带宽数据进行大小比较,判断PCIE设备是否出现降带宽问题。若当前的实际带宽小于预设带宽,则判定设备处于降带宽状态。此时,若在位信号中存在高电平,则可判定降带宽的问题是设备倾斜导致的。本实施例中,利用CPLD内部模块并行处理的优势,实现预设带宽与实际带宽的快速比对与设备倾斜的判定。
作为本申请的一种实施方式,所述控制单元,用于在多个连续的检测周期内,接收所述PCIE设备发送的在位信息;
所述解析单元,用于确定所述PCIE设备在每个检测周期内的实际带宽;
所述判断单元,用于在每个检测周期内,比较所述PCIE设备的实际带宽与所述预设带宽的大小;若所述实际带宽小于所述预设带宽,则判定所述PCIE设备处于降带宽状态:当所述PCIE设备处于降带宽状态的时长达到第一阈值时,若在位信号存在高电平,则判定所述PCIE设备发生倾斜。
在一种实施例中,对PCIE设备进行连续的多轮检测,在每个检测周期内,从在位信息中获取设备的在位信号,并根据在位信号的高低电平、在位信号的总数及预设带宽计算得到检测周期内的实际带宽。将连续多轮检测得到的实际带宽与预设带宽进行比较,若PCIE设备处于降带宽状态的时长或周期数达到一定的阈值,则判定该设备发生降带宽问题。在这种情况下,结合在位信号的电平进行判断,若在位信号中存在高电平,则可判定降带宽的问题是设备倾斜导致的。
可选地,在本实施例中,第一阈值可根据实际应用情况进行对应设置,例如,可按照周期数设置,也可按秒设置。
本实施例中,在多个连续检测周期内对设备是否降带宽进行判定,从而进一步判定设备是否发生倾斜,在设备维持降带宽状态一定时间后进行判定,确保不会因为极短时间内的带宽波动导致误判及频繁告警。
作为本申请的一种实施方式,所述控制单元,还用于在所述PCIE设备处于降带宽状态时,生成带宽告警信号;当PCIE设备发生倾斜时,生成解除倾斜请求信号。
在一种实施例中,当判定PCIE设备处于降带宽状态时,控制单元生成带宽告警信号,当判定设备处于倾斜状态时,生成解除倾斜请求信号。将生成的降带宽告警信号及解除倾斜请求信号存储在寄存器中以供读取。其中,带宽告警信号和解除倾斜请求信号所包含的内容可根据实际需要进行设置。例如,带宽告警信号可包括出现降带宽问题的设备所在服务器ID、设备所在插槽的位置等;解除倾斜请求可以是出现倾斜的设备ID、设备型号、设备规格、出现倾斜的在位检测引脚及设备所在插槽的位置等。通过生成带宽告警信号及解除倾斜请求信号,可以及时通知管理人员进行故障处理。
作为本申请的一种实施方式,所述CPLD还包括故障点灯单元;
所述控制单元,还用于在所述PCIE设备处于降带宽状态时,生成故障点灯信号,并发送给所述故障点灯单元;
所述故障点灯单元,用于根据所述故障点灯信号,在对应位置进行点灯告警。
在一种实施例中,为了更直观地对倾斜设备进行告警,系统中还包括故障点灯单元。故障点灯单元根据带宽告警信号,对出现接触不良的高电平在位信号对应的在位检测引脚进行告警。可选地,可在服务器上设置告警灯,通过点亮告警灯进行降带宽告警。
在一种实施例中,还可以设置多个告警灯,分别用于进行降带宽告警和解除倾斜请求提示。本实施例中,通过故障点灯单元对出现降带宽的设备进行点灯告警,从而更直观地提示故障类型和位置,方便管理人员进行设备维护和故障处理,提高处理效率。
作为本申请的一种实施方式,所述控制单元还用于执行以下步骤:
配置数据采集指令,所述数据采集指令包括:数据加载使能信号及时钟信号;所述数据采集指令用于采集所述PCIE设备的在位信息;
在一个检测周期中,向所述PCIE设备发送所述数据采集指令,并接收所述PCIE设备发送的在位信息。
本实施例中,通过自定义的数据采集指令,使CPLD作为MASTER驱动指令对PCIE设备进行在位信息的采集。数据采集指令包括数据加载使能信号及时钟信号,通过数据加载使能信号控制PCIE设备开始在检测周期内发送在位信息,通过时钟信号控制PCIE设备发送数据的频率。
在本实施例中,在数据采集过程中还定义了数据传输信号,PCIE设备基于数据传输信号向CPLD返回在位信号数据,其中在位信号由高低电平表示,一个在位信号占1bit。
在一种实施例中,本申请还定义了故障点灯控制信号,包括告警控制信号和定位信号,通过定位信号确定需要点亮或熄灭的告警灯的位置,通过告警控制信号控制告警灯的点亮与熄灭,从而实现对PCIE设备进行告警的灵活控制。
作为本申请的一种实施方式,所述PCIE设备检测系统,还包括基板管理控制器;
所述控制单元,还用于将所述带宽告警信号及所述解除倾斜请求信号存储在所述寄存器中;
所述基板管理控制器,用于从所述寄存器中读取所述带宽告警信号及所述解除倾斜请求信号,生成告警提示。
在一种实施例中,PCIE设备检测系统还包括BMC(Baseboard ManagerController,基板管理控制器),通过BMC实现对PCIE设备检测的远程监控与告警提示。在本实施例中,CPLD将带宽告警信号及解除倾斜请求信号存储在寄存器中,BMC定时对CPLD的寄存器进行读取,当读取到带宽告警信号及解除倾斜请求信号时,在管理界面中生成相应的告警提示并进行展示,方便管理人员迅速定位问题所在,并及时进行故障排除,节约故障修复时间,节省成本,从而提高处理故障的效率。
根据告警提示,管理人员可以方便地对设备故障进行远程监控,当出现降带宽问题时,通过告警提示能迅速获取出现故障的设备的相关信息,提高处理故障的效率。
图2是本申请一实施例提出的PCIE设备检测系统的硬件架构示意图。如图2所示,PCIE设备检测系统包括CPLD及BMC,CPLD通过数据加载使能信号LD_N、时钟信号CLK进行数据采集控制,PCIE网卡通过数据传输信号DATA_IN向CPLD发送在位信息。CPLD通过内部模块获取在位信息中的所有在位信号,并基于在位信号确定设备的预设带宽和当前的实际带宽,进而判断设备是否出现降带宽。当设备出现降带宽时,将生成的带宽告警信号及解除倾斜请求信号存储在寄存器中,由BMC通过I2C总线从寄存器中读取出来并进行解析,生成告警提示,及时提醒管理人员进行PCIE设备倾斜解除操作,恢复设备正常运行。在设备出现降带宽时,通过故障点灯控制信号点亮告警灯,具体地,通过SCL/SDA信号进行定位,然后通过ALERT信号控制告警灯点亮。其中,SCL/SDA定位信号可根据实际需求进行配置。例如,可将SCL信号配置为点亮告警灯时的定位信号,将SDA信号配置为熄灭告警灯时的定位信号。
本申请中,CPLD通过自定义的数据采集信号、数据传输信号主动采集PCIE设备的内部在位信号数据,生成检测周期内设备的预设带宽与实时带宽的寄存器数据以供BMC通过I2C总线进行读取并记录故障日志。在判定是否出现降带宽以及是否发生设备倾斜时,利用CPLD可并行处理数据的优势,整合两组带宽数据(预设带宽数据、实际带宽数据)进行比对,根据CPLD的自判断机制得出判断结果,并生成带宽告警信号、解除倾斜请求信号及故障点灯信号,触发在位信号对应位置的告警点灯,更直观地展示出现故障的高电平在位信号位置。
由于本实施例中通过BMC与CPLD直接进行信息交互,无需再通过BIOS将在位信号的线与结果传输给BMC进行判定,减少了传统方法的PCB走线数量及逻辑与门芯片的使用,降低了硬件成本。
作为本申请的一种实施方式,所述基板管理控制器,还用于从所述寄存器中读取当前检测的周期对应的带宽告警信号、解除倾斜请求信号及所有在位信号,并记录PCIE故障日志。
在一种实施例中,解析单元还用于将在位信号存储在CPLD的寄存器中,BMC通过读取寄存器获取PCIE设备中每个在位检测引脚的在位信号,从而通过获知每个在位检测引脚的工作状态,通过获取每个引脚的在位信号(高低电平),从而准确得知每个在位检测引脚的工作情况。当在位信号为高电平时,表示该在位信号对应的在位检测引脚存在接触不良。BMC根据每个在位信号对应的在位检测引脚的工作情况,记录PCIE故障日志。如图2所示,PCIE_PSNT_N为PCIE设备的在位信号示例。本申请中,解析单元将检测周期内所有在位信号存储在寄存器中,BMC通过I2C总线读取寄存器中的在位信号,获取每个在位检测引脚的工作状态。
本实施例中,BMC读取在位信号、带宽告警信号和解除倾斜请求信号,并基于读取的信号记录PCIE设备的倾斜日志,实现对PCIE设备的远程故障监控和历史故障记录,管理人员能够通过日志查看降带宽问题是否由设备倾斜引起,通过对历史日志的查看,能够方便管理人员对PCIE设备运行情况进行评估。
本申请中能够读取的在位信号数据相比传统的线与方式,能获取的在位信息更加准确和具体,管理人员可远程通过BMC界面直接确定设备倾斜故障,也可直观的通过具体点位的故障告警灯来定位具体的故障位置,增加了PCIE设备管理的灵活性和实用性,提高了设备降带宽问题的处理效率。
基于同一发明构思,本申请一实施例提供一种PCIE设备检测方法。参考图3,图3是本申请一实施例提出的PCIE设备检测方法的流程图。如图3所示,该方法包括:
S21:采集高速串行计算机扩展总线(PCIE)设备的在位信息;所述在位信息包括所述高速串行计算机扩展总线设备上所有在位检测引脚的在位信号;
S22:从所述在位信息中获取所有在位信号,基于所述在位信号确定所述高速串行计算机扩展总线设备的实际带宽;
S23:根据预设带宽及所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜。
作为本申请的一种实施方式,所述PCIE设备检测方法,还包括:
根据所述PCIE设备的在位信号的总数,确定所述PCIE设备的规格;
根据所述PCIE设备的规格获取对应的出厂带宽,将所述出厂带宽作为所述预设带宽。
作为本申请的一种实施方式,基于所述在位信号确定所述PCIE设备的实际带宽,包括:
获取所有在位信号中低电平的在位信号数量;
根据所述低电平的在位信号数量、在位信号的总数及所述预设带宽,计算所述PCIE设备的实际带宽。
作为本申请的一种实施方式,根据预设带宽及所述实际带宽,判断所述PCIE设备是否发生倾斜,包括:
比较所述实际带宽与所述预设带宽的大小;
若所述实际带宽小于所述预设带宽,则判定所述PCIE设备处于降带宽状态;
当所述PCIE设备处于降带宽状态时,若在位信号存在高电平,则判定所述PCIE设备发生倾斜。
作为本申请的一种实施方式,根据预设带宽及所述实际带宽,判断所述PCIE设备是否发生倾斜,包括:
在多个连续的检测周期内,获取所述PCIE设备的实际带宽;
比较每个检测周期内实际带宽与所述预设带宽的大小;
若所述实际带宽小于所述预设带宽,则判定所述PCIE设备处于降带宽状态:
当所述PCIE设备处于降带宽状态的时长达到第一阈值时,若在位信号存在高电平,则判定所述PCIE设备发生倾斜。
作为本申请的一种实施方式,所述PCIE设备检测方法,还包括:
当判定所述PCIE设备处于降带宽状态时,生成带宽告警信号;
当PCIE设备发生倾斜时,生成解除倾斜请求信号;
基于所述带宽告警信号及所述解除倾斜请求信号,生成告警提示。
作为本申请的一种实施方式,所述PCIE设备检测方法,还包括:
当判定所述PCIE设备处于降带宽状态时,生成故障点灯信号;
根据所述故障点灯信号,在对应位置进行点灯告警。
作为本申请的一种实施方式,获取所述PCIE设备的在位信号总数,包括:
配置数据采集指令,所述数据采集指令包括:数据加载使能信号及时钟信号;所述数据采集指令用于采集所述PCIE设备的在位信息;
在一个检测周期中,向所述PCIE设备发送所述数据采集指令,并接收所述PCIE设备在检测周期内发送的在位信息;所述在位信息包括所述PCIE设备上所有在位检测引脚的在位信号;
根据所述在位信息,确定所述PCIE设备的在位信号总数。
作为本申请的一种实施方式,所述PCIE设备检测方法,还包括:
根据当前的检测周期对应的带宽告警信号、解除倾斜请求信号及所有在位信号,记录PCIE故障日志。
图4是本申请一实施例中检测PCIE设备是否发生倾斜的流程图。如图4所示,本实施例基于CPLD和BMC实现对PCIE设备的倾斜检测与远程监控,具体步骤如下:
(1)在初始状态下,数据加载使能信号LD_N为高电平,时钟信号CLK为低电平。设置时钟的周期T。
(2)开始进行在位信息数据采集,CPLD拉低LD_N,产生脉冲宽度为T的低脉冲后拉高,触发PCIE设备加载最新的在位状态信息,在LD_N拉低期间,CLK信号保持低电平。以X8规格的PCIE设备为例,X8设备具有4个在位信号,如下表1所示,当采集到在位信号0、1、2均为低电平,在位信号3为高电平。
(3)时间经过T/2后,CPLD拉高CLK产生上升沿,PCIE设备在CLK的上升沿将内部在位信号的总数,及所有在位信号的状态数据发送到DATA_IN信号上。在经过T/2后,CPLD拉低CLK产生下降沿,此时,PCIE设备发送到DATA_IN信号上的数据已经稳定,CPLD采集DATA_IN信号线上的数据,作为一帧中的1bit数据。按照时钟CLK周期重复执行数据采集操作,获取PCIE设备所有的在位信息,结果如下表1所示。表1中,Bit0~Bit3为在一个检测周期中采集到的4个在位信号,分别对应PCIE设备的在位信号 PRSNTB0_N~PRSNTB3_N,Bit4为CPLD的唤醒信号。
表1
(4)在PCIE设备发送完在位信号后,CPLD在完成最后1bit数据采集的同时,重新产生LD_N信号低脉冲信号开始进入下一个检测周期,进行新一轮在位信息的采集。
(5)CPLD将在位信号的总数与内部寄存器逻辑进行比对,根据映射关系确定PCIE设备的规格。具体地,在位信号数量为1映射PCIE设备带宽为X1;在位信号数量为2映射PCIE设备带宽为X4;在位信号数量为4映射PCIE设备带宽为X8;在位信号数量为8映射PCIE设备带宽为X16。在实际应用中可将用到的设备规格信息预先存储在寄存器中,本申请对此不做限制。以X8设备为例,根据采集到的在位信号总数为4,判断此设备的带宽是X8,即3814.72MB/s。进一步根据CPLD采集到的每个在位信号的高低电平,计算实际带宽为2861.04 MB/s,通过对比,该实际带宽小于X8设备的出厂带宽3814.72MB/s,判定该PCIE设备出现降带宽。
(6)CPLD根据降带宽的判断结果生成带宽告警信号,确定在位信号3(PRSNTB2_N)为高电平,判定该PCIE设备发生设备倾斜,生成解除倾斜请求信号。根据带宽告警信号,将在位信号3所对应位置的点灯模块进行点灯。CPLD将生成的信号与之前采集到的在位信号组成一帧数据。如表2所示,在一帧数据中,Bit5~ Bit7分别是带宽告警信号、解除倾斜请求信号及故障点灯信号。
表2
(7)CPLD将生成的告警信号、解除倾斜请求信号存储在寄存器中,BMC通过I2C总线对CPLD的寄存器进行读取并解析信号,记录故障日志并生成告警提示,通过管理界面进行展示。管理人员通过BMC的管理界面,能够迅速获知PCIE设备的告警信息,并及时作出处理。
(8)CPLD按照以下逻辑控制输出所有的在位信号,并存储在寄存器中:
PCIE_PSNT_N = PRSNTB0_N&&PRSNTB31_N&&PRSNTB2_N&&PRSNTB3_N。
BMC通过I2C总线对CPLD的寄存器进行读取和解析。这种方式还能够兼容BMC原有的PCIE设备的在位检测进程。BMC解析并记录设备带宽日志,管理人员可阅读设备带宽日志来监控PCIE设备是否良好连接。
基于同一发明构思,本申请一实施例提供一种PCIE设备检测装置。参考图5,图5是本申请一实施例提出的PCIE设备检测装置500的示意图。如图5所示,该装置包括:
信号采集模块501,被配置为采集PCIE设备的在位信息;所述在位信息包括所述PCIE设备上所有在位检测引脚的在位信号;
带宽获取模块502,被配置为从所述在位信息中获取所有在位信号,基于所述在位信号确定所述PCIE设备的实际带宽;
判断模块503,被配置为根据预设带宽及所述实际带宽,判断所述PCIE设备是否发生倾斜。
作为本申请的一种实施方式,所述带宽获取模块502,还被配置为根据所述PCIE设备的在位信号的总数,确定所述PCIE设备的规格;根据所述PCIE设备的规格获取对应的出厂带宽,将所述出厂带宽作为所述预设带宽。
作为本申请的一种实施方式,所述带宽获取模块502,被配置为执行以下步骤:
获取所有在位信号中低电平的在位信号数量;
根据所述低电平的在位信号数量、在位信号的总数及所述预设带宽,计算所述PCIE设备的实际带宽。
作为本申请的一种实施方式,所述带宽获取模块502,被配置为执行以下步骤:
比较所述实际带宽与所述预设带宽的大小;
若所述实际带宽小于所述预设带宽,则判定所述PCIE设备处于降带宽状态;
当所述PCIE设备处于降带宽状态时,若在位信号存在高电平,则判定所述PCIE设备发生倾斜。
作为本申请的一种实施方式,所述带宽获取模块502,还被配置为执行以下步骤:
在多个连续的检测周期内,获取所述PCIE设备的实际带宽;
比较每个检测周期内实际带宽与所述预设带宽的大小;
若所述实际带宽小于所述预设带宽,则判定所述PCIE设备处于降带宽状态:
当所述PCIE设备处于降带宽状态的时长达到第一阈值时,若在位信号存在高电平,则判定所述PCIE设备发生倾斜。
作为本申请的一种实施方式,所述PCIE设备检测装置500,还包括输出模块,被配置为执行以下步骤:
当判定所述PCIE设备处于降带宽状态时,生成带宽告警信号;
当PCIE设备发生倾斜时,生成解除倾斜请求信号;
基于所述带宽告警信号及所述解除倾斜请求信号,生成告警提示。
作为本申请的一种实施方式,所述PCIE设备检测装置500,还包括告警模块;
所述输出模块,还被配置为当判定所述PCIE设备处于降带宽状态时,生成故障点灯信号;
所述告警模块被配置为根据所述故障点灯信号,在对应位置进行点灯告警。
作为本申请的一种实施方式,所述信号采集模块501,还被配置为执行以下步骤:配置数据采集指令,所述数据采集指令包括:数据加载使能信号及时钟信号;所述数据采集指令用于采集所述PCIE设备的在位信息;在一个检测周期中,向所述PCIE设备发送所述数据采集指令,并接收所述PCIE设备在检测周期内发送的在位信息;所述在位信息包括所述PCIE设备上所有在位检测引脚的在位信号;
所述带宽获取模块502,还被配置为根据所述在位信息,确定所述PCIE设备的在位信号总数。
作为本申请的一种实施方式,所述PCIE设备检测装置500,还包括记录模块,被配置为执行以下步骤:
根据当前的检测周期对应的带宽告警信号、解除倾斜请求信号及所有在位信号,记录PCIE故障日志。
基于同一发明构思,本申请一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的PCIE设备检测方法中的步骤。
基于同一发明构思,本申请一实施例提供一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的PCIE设备检测方法中的步骤。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和部件并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的PCIE设备检测系统、方法、装置及产品进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (21)
1.一种高速串行计算机扩展总线设备检测系统,其特征在于,至少包括复杂可编程逻辑器件;所述复杂可编程逻辑器件包括:
控制单元,用于获取高速串行计算机扩展总线设备在检测周期内发送的在位信息;所述在位信息包括所述高速串行计算机扩展总线设备上所有在位检测引脚的在位信号;
解析单元,用于从所述在位信息中获取所有在位信号,基于所述在位信号确定所述高速串行计算机扩展总线设备的实际带宽;
判断单元,用于根据预设带宽与所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜,具体包括:比较所述实际带宽与所述预设带宽的大小;若所述实际带宽小于所述预设带宽,则判定所述高速串行计算机扩展总线设备处于降带宽状态;当所述高速串行计算机扩展总线设备处于降带宽状态时,若在位信号存在高电平,则判定所述高速串行计算机扩展总线设备发生倾斜。
2.根据权利要求1所述的高速串行计算机扩展总线设备检测系统,其特征在于,所述复杂可编程逻辑器件还包括寄存器,用于存储所述在位信息及所述预设带宽;
所述解析单元,还用于根据所述高速串行计算机扩展总线设备的在位信号的总数,确定所述高速串行计算机扩展总线设备的规格;将所述高速串行计算机扩展总线设备的规格所对应的出厂带宽作为所述预设带宽,存储到所述寄存器中。
3.根据权利要求1所述的高速串行计算机扩展总线设备检测系统,其特征在于,所述解析单元具体用于执行以下步骤:
获取所有在位信号中低电平的在位信号数量;
根据所述低电平的在位信号数量、在位信号的总数及所述预设带宽,计算所述高速串行计算机扩展总线设备的实际带宽。
4.根据权利要求2所述的高速串行计算机扩展总线设备检测系统,其特征在于,所述控制单元,用于在多个连续的检测周期内,接收所述高速串行计算机扩展总线设备发送的在位信息;
所述解析单元,用于确定所述高速串行计算机扩展总线设备在每个检测周期内的实际带宽;
所述判断单元,用于在每个检测周期内,比较所述高速串行计算机扩展总线设备的实际带宽与所述预设带宽的大小;若所述实际带宽小于所述预设带宽,则判定所述高速串行计算机扩展总线设备处于降带宽状态:当所述高速串行计算机扩展总线设备处于降带宽状态的时长达到第一阈值时,若在位信号存在高电平,则判定所述高速串行计算机扩展总线设备发生倾斜。
5.根据权利要求4所述的高速串行计算机扩展总线设备检测系统,其特征在于,所述控制单元,还用于在所述高速串行计算机扩展总线设备处于降带宽状态时,生成带宽告警信号;当高速串行计算机扩展总线设备发生倾斜时,生成解除倾斜请求信号。
6.根据权利要求4所述的高速串行计算机扩展总线设备检测系统,其特征在于,所述复杂可编程逻辑器件还包括故障点灯单元;
所述控制单元,还用于在所述高速串行计算机扩展总线设备处于降带宽状态时,生成故障点灯信号,并发送给所述故障点灯单元;
所述故障点灯单元,用于根据所述故障点灯信号,在对应位置进行点灯告警。
7.根据权利要求1所述的高速串行计算机扩展总线设备检测系统,其特征在于,所述控制单元还用于执行以下步骤:
配置数据采集指令,所述数据采集指令包括:数据加载使能信号及时钟信号;所述数据采集指令用于采集所述高速串行计算机扩展总线设备的在位信息;
在一个检测周期中,向所述高速串行计算机扩展总线设备发送所述数据采集指令,并接收所述高速串行计算机扩展总线设备发送的在位信息。
8.根据权利要求5所述的高速串行计算机扩展总线设备检测系统,其特征在于,还包括基板管理控制器;
所述控制单元,还用于将所述带宽告警信号及所述解除倾斜请求信号存储在所述寄存器中;
所述基板管理控制器,用于从所述寄存器中读取所述带宽告警信号及所述解除倾斜请求信号,生成告警提示。
9.根据权利要求8所述的高速串行计算机扩展总线设备检测系统,其特征在于,所述基板管理控制器,还用于从所述寄存器中读取当前检测的周期对应的带宽告警信号、解除倾斜请求信号及所有在位信号,并记录高速串行计算机扩展总线故障日志。
10.一种高速串行计算机扩展总线设备检测方法,其特征在于,应用于权利要求1-9任一所述的高速串行计算机扩展总线设备检测系统,包括:
采集高速串行计算机扩展总线设备的在位信息;所述在位信息包括所述高速串行计算机扩展总线设备上所有在位检测引脚的在位信号;
从所述在位信息中获取所有在位信号,基于所述在位信号确定所述高速串行计算机扩展总线设备的实际带宽;
根据预设带宽及所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜。
11.根据权利要求10所述的高速串行计算机扩展总线设备检测方法,还包括:
根据所述高速串行计算机扩展总线设备的在位信号的总数,确定所述高速串行计算机扩展总线设备的规格;
根据所述高速串行计算机扩展总线设备的规格获取对应的出厂带宽,将所述出厂带宽作为所述预设带宽。
12.根据权利要求10所述的高速串行计算机扩展总线设备检测方法,其特征在于,基于所述在位信号确定所述高速串行计算机扩展总线设备的实际带宽,包括:
获取所有在位信号中低电平的在位信号数量;
根据所述低电平的在位信号数量、在位信号的总数及所述预设带宽,计算所述高速串行计算机扩展总线设备的实际带宽。
13.根据权利要求10所述的高速串行计算机扩展总线设备检测方法,其特征在于,根据预设带宽及所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜,包括:
比较所述实际带宽与所述预设带宽的大小;
若所述实际带宽小于所述预设带宽,则判定所述高速串行计算机扩展总线设备处于降带宽状态;
当所述高速串行计算机扩展总线设备处于降带宽状态时,若在位信号存在高电平,则判定所述高速串行计算机扩展总线设备发生倾斜。
14.根据权利要求10所述的高速串行计算机扩展总线设备检测方法,其特征在于,根据预设带宽及所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜,包括:
在多个连续的检测周期内,获取所述高速串行计算机扩展总线设备的实际带宽;
比较每个检测周期内实际带宽与所述预设带宽的大小;
若所述实际带宽小于所述预设带宽,则判定所述高速串行计算机扩展总线设备处于降带宽状态:
当所述高速串行计算机扩展总线设备处于降带宽状态的时长达到第一阈值时,若在位信号存在高电平,则判定所述高速串行计算机扩展总线设备发生倾斜。
15.根据权利要求13或14所述的高速串行计算机扩展总线设备检测方法,其特征在于,还包括:
当判定所述高速串行计算机扩展总线设备处于降带宽状态时,生成带宽告警信号;
当高速串行计算机扩展总线设备发生倾斜时,生成解除倾斜请求信号;
基于所述带宽告警信号及所述解除倾斜请求信号,生成告警提示。
16.根据权利要求13或14所述的高速串行计算机扩展总线设备检测方法,其特征在于,还包括:
当判定所述高速串行计算机扩展总线设备处于降带宽状态时,生成故障点灯信号;
根据所述故障点灯信号,在对应位置进行点灯告警。
17.根据权利要求10所述的高速串行计算机扩展总线设备检测方法,其特征在于,获取所述高速串行计算机扩展总线设备的在位信号总数,包括:
配置数据采集指令,所述数据采集指令包括:数据加载使能信号及时钟信号;所述数据采集指令用于采集所述高速串行计算机扩展总线设备的在位信息;
在一个检测周期中,向所述高速串行计算机扩展总线设备发送所述数据采集指令,并接收所述高速串行计算机扩展总线设备在检测周期内发送的在位信息;所述在位信息包括所述高速串行计算机扩展总线设备上所有在位检测引脚的在位信号;
根据所述在位信息,确定所述高速串行计算机扩展总线设备的在位信号总数。
18.根据权利要求17所述的高速串行计算机扩展总线设备检测方法,其特征在于,还包括:
根据当前的检测周期对应的带宽告警信号、解除倾斜请求信号及所有在位信号,记录高速串行计算机扩展总线故障日志。
19.一种高速串行计算机扩展总线设备检测装置,其特征在于,用于实现权利要求10-18任一所述的方法,包括:
信号采集模块,被配置为采集高速串行计算机扩展总线设备的在位信息;所述在位信息包括所述高速串行计算机扩展总线设备上所有在位检测引脚的在位信号;
带宽获取模块,被配置为从所述在位信息中获取所有在位信号,基于所述在位信号确定所述高速串行计算机扩展总线设备的实际带宽;
判断模块,被配置为根据预设带宽及所述实际带宽,判断所述高速串行计算机扩展总线设备是否发生倾斜。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求10-18任一所述的方法中的步骤。
21.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求10-18任一所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410063487.1A CN117573455B (zh) | 2024-01-16 | 2024-01-16 | 一种pcie设备检测系统、方法、装置及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410063487.1A CN117573455B (zh) | 2024-01-16 | 2024-01-16 | 一种pcie设备检测系统、方法、装置及产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117573455A CN117573455A (zh) | 2024-02-20 |
CN117573455B true CN117573455B (zh) | 2024-04-05 |
Family
ID=89895951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410063487.1A Active CN117573455B (zh) | 2024-01-16 | 2024-01-16 | 一种pcie设备检测系统、方法、装置及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117573455B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118138400B (zh) * | 2024-04-29 | 2024-08-02 | 苏州元脑智能科技有限公司 | 一种设备降速提醒方法、产品、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103533045A (zh) * | 2013-10-12 | 2014-01-22 | 江苏华丽网络工程有限公司 | 一种用于pcie数据链路层高性能容错的方法 |
US20160188508A1 (en) * | 2014-12-24 | 2016-06-30 | Realtek Semiconductor Corp. | Multiplex module and electronic apparatus thereof for high-speed serial transmission |
US20170126578A1 (en) * | 2015-11-03 | 2017-05-04 | International Business Machines Corporation | On-demand iot bandwidth allocation in response to a changing sensor population |
CN115033441A (zh) * | 2022-06-29 | 2022-09-09 | 苏州浪潮智能科技有限公司 | PCIe设备故障检测方法、装置、设备和存储介质 |
-
2024
- 2024-01-16 CN CN202410063487.1A patent/CN117573455B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103533045A (zh) * | 2013-10-12 | 2014-01-22 | 江苏华丽网络工程有限公司 | 一种用于pcie数据链路层高性能容错的方法 |
US20160188508A1 (en) * | 2014-12-24 | 2016-06-30 | Realtek Semiconductor Corp. | Multiplex module and electronic apparatus thereof for high-speed serial transmission |
US20170126578A1 (en) * | 2015-11-03 | 2017-05-04 | International Business Machines Corporation | On-demand iot bandwidth allocation in response to a changing sensor population |
CN115033441A (zh) * | 2022-06-29 | 2022-09-09 | 苏州浪潮智能科技有限公司 | PCIe设备故障检测方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117573455A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117573455B (zh) | 一种pcie设备检测系统、方法、装置及产品 | |
CN102591591B (zh) | 磁盘检测系统、磁盘检测方法以及网络存储系统 | |
US7356431B2 (en) | Method for testing an input/output functional board | |
CN111124827B (zh) | 一种设备风扇的监控装置及监控方法 | |
JP2004537787A (ja) | コンピュータ・システムにおける電力障害を解析する方法および装置 | |
CN111048138A (zh) | 一种硬盘的故障检测方法及相关装置 | |
CN111312325A (zh) | 一种bbu故障诊断方法、装置、电子设备及存储介质 | |
CN107678909B (zh) | 一种服务器中监控芯片配置状态的电路及方法 | |
CN111488050B (zh) | 一种电源监控方法、系统及服务器 | |
CN112763960A (zh) | 一种就地模块的自运维方法 | |
CN103595999B (zh) | 智能电视的自动检测方法及自动检测装置 | |
US9158646B2 (en) | Abnormal information output system for a computer system | |
CN111726563A (zh) | 一种用于列车视频监控系统的视频存储装置 | |
CN111124785B (zh) | 一种硬盘故障检查的方法、装置、设备及存储介质 | |
CN106557408A (zh) | 一种计算机故障报警系统及方法 | |
CN106201801B (zh) | 一种电子设备和报错方法 | |
CN112579366B (zh) | 硬盘在位检测系统 | |
CN113590405A (zh) | 硬盘错误的检测方法、装置、存储介质和电子装置 | |
CN108399116A (zh) | 一种服务器上电状态监测系统及方法 | |
CN218568024U (zh) | 一种usb端口检测装置 | |
JP2010066801A (ja) | ログ記録システム、モジュール監視手段、トレースログ管理手段、記録方法、プログラム、及び記憶媒体 | |
CN115292113B (zh) | 对服务器的内存进行故障检测方法、装置及电子设备 | |
CN110750427A (zh) | 一种数据中心设备巡检方法及系统 | |
CN114884021B (zh) | 一种供电电路的供电控制方法及相关组件 | |
CN113836035B (zh) | 电池管理系统测试方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |