CN117687859B - PCIe设备的异常检测设备、系统、服务器、方法 - Google Patents
PCIe设备的异常检测设备、系统、服务器、方法 Download PDFInfo
- Publication number
- CN117687859B CN117687859B CN202410134604.9A CN202410134604A CN117687859B CN 117687859 B CN117687859 B CN 117687859B CN 202410134604 A CN202410134604 A CN 202410134604A CN 117687859 B CN117687859 B CN 117687859B
- Authority
- CN
- China
- Prior art keywords
- pcie
- abnormality detection
- processing chip
- abnormality
- operation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005856 abnormality Effects 0.000 title claims abstract description 227
- 238000001514 detection method Methods 0.000 title claims abstract description 172
- 238000012545 processing Methods 0.000 claims abstract description 110
- 230000002159 abnormal effect Effects 0.000 claims abstract description 73
- 238000003860 storage Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000005540 biological transmission Effects 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000004891 communication Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 11
- 238000003745 diagnosis Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006424 Flood reaction Methods 0.000 description 1
- 238000005299 abrasion Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本申请实施例涉及计算机领域,本申请实施例提供了一种PCIe设备的异常检测设备、系统、服务器、方法,其中,该设备包括:处理芯片和存储设备;存储设备与处理芯片连接,用于存储运行信息和异常检测结果。通过本申请,解决了相关技术中无法实时获取PCIe设备异常时的异常信息,导致确定异常问题的时间长、准确率低的问题,达到实时获取PCIe设备异常时的异常信息,减少确定异常问题的时间、提高确定异常的准确率的效果。
Description
技术领域
本申请实施例涉及计算机领域,具体而言,涉及一种PCIe设备的异常检测设备、系统、服务器、方法。
背景技术
随着数字经济的发展,作为数字经济基础设施的数据中心规模越来越大,部分大型数据中心的服务器规模甚至达到了百万台量级,在如此大的规模下,哪怕是极小故障,发生的故障总量也是惊人的,给数据中心的运维造成极大挑战。PCIe设备在服务器的故障中占比比较高。现有技术中主要是通过BMC+BIOS的方式进行PCIe设备的异常诊断。或者BMC通过带外的方式直接读取PCIe设备的日志,来获取PCIe设备异常时的异常信息。但BMC本身性能和存储能力的不足、I2C总线轮询的时效差,会导致PCIe设备在异常时无法实时在线捕捉到故障现场的运行信息,导致确定异常问题的时间长、准确率低的问题。
发明内容
本申请实施例提供了一种PCIe设备的异常检测设备、系统、服务器、方法,以至少解决相关技术中无法实时获取PCIe设备异常时的异常信息,导致确定异常问题的时间长、准确率低的问题。
根据本申请的一个实施例,提供了一种PCIe设备的异常检测设备,包括:处理芯片和存储设备,其中,上述处理芯片允许通过多种类型的接口与PCIe设备和CPU连接,上述处理芯片用于在上述PCIe设备出现异常时,通过第一UART接口获取上述PCIe设备的运行信息,并基于上述运行信息检测上述PCIe设备的异常,通过第一USB接口将上述运行信息和异常检测结果传输至上述CPU,其中,上述PCIe设备为支持PCIe链路连接的设备,上述PCIe设备通过上述PCIe链路与上述CPU连接;上述处理芯片和上述PCIe设备中的协议分析仪连接,其中,上述协议分析仪,用于检测上述PCIe设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息,上述运行信息中包括上述链路追踪信息;上述存储设备与上述处理芯片连接,用于存储上述运行信息和上述异常检测结果。
在一个示例性实施例中,在上述异常检测设备设置在服务器之内时,上述处理芯片通过第二USB接口或者I2C接口与BMC连接,其中,在上述处理芯片通过上述I2C接口与上述BMC连接时,上述处理芯片用于通过上述I2C接口将上述运行信息和上述异常检测结果发送至上述BMC;在上述处理芯片通过上述第二USB接口与上述BMC连接时,上述处理芯片用于通过上述第二USB接口将上述运行信息和上述异常检测结果发送至上述BMC。
在一个示例性实施例中,在上述异常检测设备设置在服务器之内时,上述处理芯片通过第二UART接口与BMC连接,其中,上述处理芯片,用于通过上述第二UART接口接收上述BMC发送的通信指令,并响应上述通信指令,建立上述PCIe设备与上位机之间的通信,上述上位机用于获取上述运行信息和上述异常检测结果;或者,上述处理芯片,用于将上述运行信息和上述异常检测结果通过上述BMC发送至上述上位机。
在一个示例性实施例中,上述处理芯片,还用于标注获取的样本运行信息中的异常原因,得到异常样本数据集,并利用上述异常样本数据集训练得到异常分析模型,其中,上述异常分析模型设置在上述处理芯片中,上述异常分析模型用于基于上述运行信息预测上述PCIe设备的异常并生成告警信息。
在一个示例性实施例中,上述处理芯片,还用于接收BMC发送的异常中断指令,并响应上述异常中断指令,通过上述第一UART接口获取上述链路追踪信息。
在一个示例性实施例中,在上述异常检测设备设置在服务器之外时,上述处理芯片通过PHY芯片与上位机连接,以将上述运行信息和上述异常检测结果发送至上述上位机。
在一个示例性实施例中,上述处理芯片以虚拟设备的形式显示在操作系统中,上述处理芯片允许在上述操作系统中通过上述虚拟设备对上述运行信息和上述异常检测结果进行读取。
在一个示例性实施例中,在上述存储设备包括多个时,多个上述存储设备通过上述处理芯片组成磁盘阵列,多个上述存储设备中包括主用存储设备和备用存储设备。
根据本申请的一个实施例,提供了一种PCIe设备的异常检测系统,包括异常检测设备和PCIe设备,其中,上述异常检测设备上部署了处理芯片和存储设备,上述处理芯片中包括多种类型的接口;上述多种类型的接口中的第一UART接口用于连接上述PCIe设备,上述多种类型的接口中的第一USB接口用于连接CPU,其中,上述PCIe设备为支持PCIe链路连接的设备,上述PCIe设备通过上述PCIe链路与上述CPU连接;上述处理芯片,用于在上述PCIe设备出现异常时,获取上述PCIe设备的运行信息,并基于上述运行信息检测上述PCIe设备的异常,将上述运行信息和异常检测结果传输至上述CPU;上述PCIe设备中包括协议分析仪,其中,上述协议分析仪,用于检测上述PCIe设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息,上述运行信息中包括上述链路追踪信息;上述存储设备与上述处理芯片连接,用于存储上述运行信息和上述异常检测结果。
在一个示例性实施例中,上述系统还包括:BMC,其中,上述BMC通过第二USB接口或者I2C接口与上述处理芯片连接,其中,在上述BMC通过上述I2C接口与上述处理芯片连接时,上述BMC用于通过上述I2C接口从上述处理芯片读取上述运行信息和上述异常检测结果,在上述BMC通过上述第二USB接口与上述处理芯片连接时,上述BMC用于通过上述第二USB接口从上述处理芯片读取上述运行信息和上述异常检测结果。
在一个示例性实施例中,上述系统还包括:上位机,其中,上述上位机通过BMC与上述处理芯片连接,用于通过上述BMC读取上述运行信息和上述异常检测结果。
在一个示例性实施例中,上述系统还包括:PHY芯片,其中,上述PHY芯片与上位机连接,用于将上述运行信息和上述异常检测结果发送至上述上位机。
在一个示例性实施例中,上述PCIe设备中包括协议分析仪,其中,上述协议分析仪,用于检测上述PCIe设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息,上述运行信息中包括上述链路追踪信息。
根据本申请的一个实施例,提供了一种服务器,包括上述的PCIe设备的异常检测系统。
根据本申请的一个实施例,提供了一种PCIe设备的异常检测方法,包括:在PCIe设备出现异常时,通过第一UART接口获取上述PCIe设备的运行信息,其中,上述PCIe设备为支持PCIe链路连接的设备,上述PCIe设备通过上述PCIe链路与CPU连接,上述PCIe设备中包括协议分析仪,其中,上述协议分析仪,用于检测上述PCIe设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息,上述运行信息中包括上述链路追踪信息;基于上述运行信息检测上述PCIe设备的异常;通过第一USB接口将上述运行信息和异常检测结果传输至上述CPU。
在一个示例性实施例中,在PCIe设备出现异常时,通过第一UART接口获取上述PCIe设备的运行信息,包括:通过上述PCIe设备中的协议分析仪获取链路追踪信息,得到上述运行信息,其中,上述协议分析仪用于检测上述PCIe设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息;或者,接收BMC发送的异常中断指令,并响应上述异常中断指令,通过上述第一UART接口获取上述运行信息。
在一个示例性实施例中,基于上述运行信息检测上述PCIe设备的异常,包括:将上述运行信息输入至异常分析模型,得到上述异常分析模型输出的上述PCIe设备的异常,其中,上述异常分析模型是基于异常样本数据集训练得到的模型,上述异常样本数据集是通过标注样本运行信息中的异常原因得到的数据集。
根据本申请的另一个实施例,提供了一种PCIe设备的异常检测装置,包括:第一获取模块,用于在PCIe设备出现异常时,通过第一UART接口获取上述PCIe设备的运行信息,其中,上述PCIe设备为支持PCIe链路连接的设备,上述PCIe设备通过上述PCIe链路与CPU连接,上述PCIe设备中包括协议分析仪,其中,上述协议分析仪,用于检测上述PCIe设备的上下行链路中传输的数据包,并在上述上下行链路中传输上述数据包的过程中出现异常的情况下,获取上述上下行链路传输上述数据包的链路追踪信息,上述运行信息中包括上述链路追踪信息;第一检测模块,用于基于上述运行信息检测上述PCIe设备的异常;第一传输模块,用于通过第一USB接口将上述运行信息和异常检测结果传输至上述CPU。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,由于异常检测设备是独立于BMC的设备,主要包括处理芯片,处理芯片允许通过多种类型的接口与PCIe设备和CPU连接,在PCIe设备出现异常时,通过第一UART接口获取PCIe设备的运行信息,并基于运行信息检测PCIe设备的异常,通过第一USB接口将运行信息和异常检测结果传输至CPU,并通过存储设备存储运行信息和异常检测结果,并且,PCIe设备中包括协议分析仪用于检测PCIe设备的上下行链路中传输的数据包,并在上下行链路中传输数据包的过程中出现异常的情况下,获取上下行链路传输数据包的链路追踪信息,运行信息中包括链路追踪信息。并不依赖BMC的性能和存储能力,可以在PCIe设备出现异常时,实时获取异常时刻的PCIe设备的全部运行信息。因此,可以解决相关技术中无法实时获取PCIe设备异常时的异常信息,导致确定异常问题的时间长、准确率低的问题,达到实时获取PCIe设备异常时的异常信息,减少确定异常问题的时间、提高确定异常的准确率的效果。
附图说明
图1是根据本申请实施例的PCIe设备的异常检测设备的示意图;
图2是根据本申请实施例的MPU芯片和eMMC Flash/TF卡之间的连接示意图;
图3是根据本申请实施例的多个PCIe设备和异常检测设备连接的示意图;
图4是根据本申请实施例的异常检测设备外挂的结构示意图一;
图5是根据本申请实施例的异常检测设备外挂的结构示意图二;
图6是根据本申请实施例的PCIe设备的异常检测系统的示意图;
图7是本申请实施例的一种PCIe设备的异常检测方法的移动终端的硬件结构框图;
图8是根据本申请实施例的PCIe设备的异常检测方法的流程图;
图9是根据本申请实施例的PCIe设备的异常检测装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在本实施例中提供了一种PCIe设备的异常检测设备,图1是根据本申请实施例的PCIe设备的异常检测设备的示意图,如图1所示,该设备包括:处理芯片和存储设备,其中,
处理芯片允许通过多种类型的接口与PCIe设备和CPU连接,处理芯片用于在PCIe设备出现异常时,通过第一UART接口获取PCIe设备的运行信息,并基于运行信息检测PCIe设备的异常,通过第一USB接口将运行信息和异常检测结果传输至CPU,其中,PCIe设备为支持PCIe链路连接的设备,PCIe设备通过PCIe链路与CPU连接;
处理芯片和PCIe设备中的协议分析仪连接,其中,协议分析仪,用于检测PCIe设备的上下行链路中传输的数据包,并在上下行链路中传输数据包的过程中出现异常的情况下,获取上下行链路传输数据包的链路追踪信息,运行信息中包括链路追踪信息;
存储设备与处理芯片连接,用于存储运行信息和异常检测结果。
通过本申请,由于异常检测设备是独立于BMC的设备,主要包括处理芯片,处理芯片允许通过多种类型的接口与PCIe设备和CPU连接,在PCIe设备出现异常时,通过第一UART接口获取PCIe设备的运行信息,并基于运行信息检测PCIe设备的异常,通过第一USB接口将运行信息和异常检测结果传输至CPU,并通过存储设备存储运行信息和异常检测结果。并不依赖BMC的性能和存储能力,可以在PCIe设备出现异常时,实时获取异常时刻的PCIe设备的全部运行信息。因此,可以解决相关技术中无法实时获取PCIe设备异常时的异常信息,导致确定异常问题的时间长、准确率低的问题,达到实时获取PCIe设备异常时的异常信息,减少确定异常问题的时间、提高确定异常的准确率的效果。
可选地,处理芯片中包括但不限于是可以运行嵌入至操作系统中的微处理器,例如,通用高性能微处理器、嵌入式微处理器、数字信号处理器、微控制器、微处理器(MicroProcessor,简称为MPU)等。例如,将MPU芯片运行嵌入式Linux系统中,用户执行控制、数据缓存、数据分析、对外通信等功能。
可选地,由于处理芯片可以获取大量的PCIe设备的运行信息,因此,需要大容量的存储设备外挂在处理芯片,或者内置在处理芯片中。在存储设备包括多个时,多个存储设备通过处理芯片组成磁盘阵列,多个存储设备中包括主用存储设备和备用存储设备。存储设备用于存储原始的运行信息和数据分析后的异常检测结果,存储设备的存储可以采用循环覆盖的方式,为避免原始运行信息被重刷掉,存储设备的容量需要足够大。例如,在存储设备是eMMC Flash/TF卡时,可以是8GB或更高的存储容量。处理芯片可以外挂多个eMMCFlash/TF卡,组成RAID,实现多张eMMC Flash/TF卡互为备份,提高了故障诊断数据存储的可靠性,实现了数据冗余。例如,在处理芯片是MPU芯片,存储设备是eMMC Flash/TF卡时,如图2所示,MPU芯片和eMMC Flash/TF卡之间通过eMMC(embedded MultiMediaCard,嵌入式多媒体卡)/SDIO(Secure Digital Input and Output,安全数字输入输出)连接。
可选地,PCIe设备包括但不限于PCIe Switch、磁盘阵列(Redundant Arrays ofIndependent Disks,简称为RAID)卡、网卡等。在处理芯片是MPU芯片,存储设备是eMMCFlash/TF卡时,如图3所示,多个PCIe设备均通过不同的UART接口和异常检测设备连接。PCIe设备的运行信息包括PCIe设备的底层日志、寄存器信息、链路追踪信息PCIe Trace等。
可选地,PCIe设备的异常包括但不限于是以下因素引起的:设备故障:设备出现机械损坏或电子元件故障,导致设备无法正常工作。环境因素:如温度过高或过低、湿度过大等环境因素导致设备故障。操作失误:人为操作不当导致设备损坏或故障。设计缺陷:设备本身设计存在缺陷,导致长期使用后出现故障。长期使用磨损:设备长期使用导致零部件磨损严重,从而引起故障。供电问题:供电不稳定或电源线路故障导致设备出现故障。软件问题:设备软件程序出现bug或故障,导致设备无法正常运行。外部影响:如雷击、水灾等外部因素导致设备损坏或故障。
可选地,UART(Universal Asynchronous Receiver/Transmitter)是一种通用的串行通信接口,用于将数据从一个设备传输到另一个设备。UART接口可以在不需要时钟信号的情况下进行异步通信。UART接口由发送器和接收器组成,其中发送器负责将数据转换为串行信号并发送到外部设备,而接收器则负责接收来自外部设备的串行信号并将其转换为数据。UART接口使用一个或多个数据线和一个或多个控制线来进行通信。数据线用于传输实际的数据位,而控制线通常用于发送/接收使能、数据就绪和错误检测等功能。
可选地,PCIe设备内部需要支持内嵌式PCIe协议分析仪,用于支持处理芯片通过UART接口控制PCIe设备内部的嵌入式PCIe逻辑分析仪执行PCIe Trace(即链路追踪信息)抓取的动作,从而抓取故障时刻PCIe设备的上下行PCIe链路的Trace。相比于现有方案中BMC通过I2C总线获取PCIe设备监控信息的方案,本实施例使用UART总线的优势是可以实现全双工的点对点通信,避免了轮询操作,从而实现实时的在线数据收集和指令发送。
可选地,PCIe链路Trace是用于分析和监测PCIe总线的工具,它可以帮助检测总线的性能问题、调试通信问题和优化系统性能。PCIe链路Trace可以捕获和分析PCIe总线上的数据传输,包括数据包的传输速度、延迟、错误和协议违规等信息。通过使用PCIe链路Trace工具,可以更好地找出潜在的问题,并进行相应的调试和优化。
在一个示例性实施例中,在异常检测设备设置在服务器之内时,处理芯片通过第二USB接口或者I2C接口与BMC连接,其中,在处理芯片通过I2C接口与BMC连接时,处理芯片用于通过I2C接口将运行信息和异常检测结果发送至BMC;在处理芯片通过第二USB接口与BMC连接时,处理芯片用于通过第二USB接口将运行信息和异常检测结果发送至BMC。
可选地,异常检测设备作为服务器的内置模块时,不提供对外网口。异常检测设备和BMC之间通过I2C/USB总线互连,I2C/USB总线作为异常检测设备接收来自BMC的命令和对外输出运行信息及异常检测结果的主要带外通信通道。当BMC和处理芯片通过I2C进行通信时,通信速率较低,但是可以通过通用的IPMI协议进行通信,BMC不需要额外的代码开发工作即可支持。当BMC和处理芯片之间使用USB通信时,传输速率更快,可以实现更加高速和实时的数据传输和告警,但是和BMC适配USB通道的工作量相比于I2C更大。本实施例在异常检测设备设置在服务器之内时,异常检测设备通过多种接口方式和BMC连接,保证了信息的传输。
可选地,IPMI协议是一种用于远程管理和监控计算机系统硬件的标准协议。它提供了一种标准的方法,让管理员可以远程监控服务器的健康状态,进行远程开关机、重启和诊断等操作。IPMI协议运行在BMC上,通过网络连接到管理控制台或远程管理设备。
在一个示例性实施例中,在异常检测设备设置在服务器之内时,处理芯片通过第二UART接口与BMC连接,其中,处理芯片,用于通过第二UART接口接收BMC发送的通信指令,并响应通信指令,建立PCIe设备与上位机之间的通信,上位机用于获取运行信息和异常检测结果;或者,处理芯片,用于将运行信息和异常检测结果通过BMC发送至上位机。
可选地,上位机用于监控、管理和控制下位机设备的计算机系统。它通常运行着上位机软件,可以与多个下位机设备进行通讯,实时获取和处理数据,进行监控和调度。上位机可以通过人机界面与操作人员进行交互,提供实时的设备状态和生产信息,以便对生产过程进行管理和优化。在工业自动化控制系统中,上位机起着核心的控制和管理作用。上位机软件通过带外通信的方式和异常检测设备进行交互,和用户的业务网隔离,不影响用户正常的业务。异常检测设备需要通信的信息经过BMC转发后,传输到服务器的带外管理网卡,上位机工具通过网口即可正常访问异常检测设备,用户可通过上位机UI界面抓取异常检测设备的原始日志和分析日志,并向异常检测设备发送控制命令。例如,在处理芯片是MPU芯片,存储设备是eMMC Flash/TF卡,异常检测设备作为服务器的内置模块时,异常检测设备和其他设备之间的架构如图3所示。异常检测设备通过各个UART接口和多个PCIe设备连接,异常检测设备通过USB接口和CPU连接,异常检测设备通过UART0和BMC连接,上位机通过网络接口连接BMC。UART0是异常检测设备通过BMC对外交互的通道,此时MPU内部实现一个UART总线切换器的功能,MPU接收BMC发送的控制命令后,UART1-UART6可以在MPU内部分别选通至UART0。这样上位机通过网络访问BMC,并经过BMC透传后,可以分别直接和UART1-UART6对应的PCIe设备通过UART串口指令进行通信,可支持PCIe部件原生的UART命令。用户可以远程发送UART命令对相应的PCIe设备进行调试。在本实施例中,MPU的UART0以及UART1-UART6分别同时对多个PCIe设备进行底层日志和寄存器的实时在线收集。异常检测设备的MPU收集到各个PCIe设备发送的底层日志和寄存器信息后,通过模式匹配的故障分析方式,快速解析并提取PCIe设备寄存器和底层日志中的关键词和故障信息,将故障原始日志储存到eMMC Flash/TF卡中,并将告警信息上报给BMC或者上位机。寄存器是一种用于存储和处理数据的设备。在计算机系统中,寄存器通常用于暂时存储数据、地址和控制信息。根据其功能和用途,寄存器可以分为多种类型,如通用寄存器、特殖寄存器、指令寄存器等。
本实施例在异常检测设备设置在服务器之内时,处理芯片通过BMC连接上位机,保障了和上位机之间的通信。
在一个示例性实施例中,处理芯片,还用于标注获取的样本运行信息中的异常原因,得到异常样本数据集,并利用异常样本数据集训练得到异常分析模型,其中,异常分析模型设置在处理芯片中,异常分析模型用于基于运行信息预测PCIe设备的异常并生成告警信息。
可选地,异常样本数据集是提前收集的PCIe设备的样本运行信息(例如,底层故障日志),并对底层故障日志的故障根因进行标注,形成标注的数据集,然后通过人工智能训练的方式生成人工智能模型,并将训练好的异常分析模型部署到MPU芯片中,此时,MPU芯片可以通过实时收集的PCIe设备的底层日志,并使用训练好的异常分析模型进行推理,实时给出底层日志的推理结果并进行预警。本实施例还可以选择在MPU芯片中嵌入NPU等AI推理专用的硬件加速器,以提升人工智能模型的推理速度。硬件加速器是一种用于提高计算机系统性能的设备。它是一块集成电路芯片,用于加速特定的计算任务。可以通过专门优化的硬件电路和并行处理能力来提高计算速度,从而减少对主处理器的负担,提高系统整体性能和效率。本实施例通过异常分析模型,可以快速的预测出PCIe设备的异常并生成告警信息。
可选地,处理芯片,还用于接收BMC发送的异常中断指令,并响应异常中断指令,通过第一UART接口获取链路追踪信息。在本实施例中,当BIOS监测到系统发生PCIe UCE错误时,BIOS通知BMC系统发生了PCIe UCE错误,BMC通过I2C/USB向MPU发送异常中断指令,当MPU接收到BMC发送的故障中断时,立即通过多路UART串口向PCIe设备内部的嵌入式PCIe协议分析仪发送指令,收集PCIe设备上下行PCIe链路故障时刻的Trace,存储在eMMC Flash/TF卡中,并上报给BMC或者上位机,有利于快速定位PCIe协议级故障。
在一个示例性实施例中,在异常检测设备设置在服务器之外时,处理芯片通过PHY芯片与上位机连接,以将运行信息和异常检测结果发送至上位机。
在本实施例中,异常检测设备设置在服务器之外即是将异常检测设备做成外插卡的模块,例如,标准PCIe网卡形态或者OCP网卡形态。如图4所示,和内置式的故障诊断模块相比,外插卡形式的异常检测设备可以直接提供对外通信的网卡。
可选地,PHY芯片是指物理层芯片,它是用于实现计算机网络通信的硬件设备。PHY芯片主要负责处理物理层的信号传输和接收,包括编解码、调制解调、时钟同步等功能。如图5所示,MPU芯片可以直接外挂PHY芯片后提供对外网口,这样上位机无需通过BMC,就可以通过异常检测设备的网口直接和MPU芯片通信,实现和BMC的解耦,可以使得异常检测设备的应用更加灵活。
在一个示例性实施例中,处理芯片以虚拟设备的形式显示在操作系统中,处理芯片允许在操作系统中通过虚拟设备对运行信息和异常检测结果进行读取。
可选地,在带内通信时,异常检测设备通过USB总线和CPU互连,可以实现高速的带内数据传输。异常检测设备通过USB总线在服务器OS下虚拟成一个用户可见的U盘(即虚拟设备)。为保证异常诊断数据的可靠性,此U盘需要设置为只读,并且严格禁止故障诊断模块访问OS下的数据,实现异常检测设备和用户业务的隔离,用户可以在服务器OS下直接获取异常检测设备存储的原始数据和故障分析结果,用户的带内管理软件也可以在OS下方便的获取异常检测设备提供的数据,作为其带内管理软件的一部分输入数据,用于用户做更高级的数据分析功能。
可选地,要将异常检测设备通过USB总线虚拟成一个用户可见的U盘,可以使用USB设备模拟软件来实现。首先,需要在服务器OS下安装USB设备模拟软件,并将故障诊断单元连接到服务器的USB接口上。然后,通过USB设备模拟软件的设置界面,将故障诊断单元虚拟成一个U盘,并分配一个可见的盘符。用户可以通过这个盘符来访问和管理故障诊断单元中的数据。在设置完成后,用户就可以在服务器OS下像使用普通U盘一样使用虚拟的异常检测设备了。用户可通过U盘访问异常检测设备的数据和文件,可以方便用户对异常检测设备进行操作和管理,同时也降低了系统集成的复杂度。通过USB总线虚拟成U盘的方式,可以有效地提高异常检测设备的易用性和可靠性。
在本实施例中还提供了一种PCIe设备的异常检测系统,图6是根据本申请实施例的PCIe设备的异常检测系统的示意图,如图6所示,该系统包括:异常检测设备和PCIe设备,其中,
异常检测设备上部署了处理芯片和存储设备,处理芯片中包括多种类型的接口;
多种类型的接口中的第一UART接口用于连接PCIe设备,多种类型的接口中的第一USB接口用于连接CPU,其中,PCIe设备为支持PCIe链路连接的设备,PCIe设备通过PCIe链路与CPU连接;
处理芯片,用于在PCIe设备出现异常时,获取PCIe设备的运行信息,并基于运行信息检测PCIe设备的异常,将运行信息和异常检测结果传输至CPU;
PCIe设备中包括协议分析仪,其中,协议分析仪,用于检测PCIe设备的上下行链路中传输的数据包,并在上下行链路中传输数据包的过程中出现异常的情况下,获取上下行链路传输数据包的链路追踪信息,运行信息中包括链路追踪信息;
存储设备与处理芯片连接,用于存储运行信息和异常检测结果。
通过本申请,由于PCIe设备的异常检测系统中包括异常检测设备,异常检测设备是独立于BMC的设备,主要包括处理芯片,处理芯片允许通过多种类型的接口与PCIe设备和CPU连接,在PCIe设备出现异常时,通过第一UART接口获取PCIe设备的运行信息,并基于运行信息检测PCIe设备的异常,通过第一USB接口将运行信息和异常检测结果传输至CPU,并通过存储设备存储运行信息和异常检测结果。并不依赖BMC的性能和存储能力,可以在PCIe设备出现异常时,实时获取异常时刻的PCIe设备的全部运行信息。因此,可以解决相关技术中无法实时获取PCIe设备异常时的异常信息,导致确定异常问题的时间长、准确率低的问题,达到实时获取PCIe设备异常时的异常信息,减少确定异常问题的时间、提高确定异常的准确率的效果。
在一个示例性实施例中,系统还包括:BMC,其中,BMC通过第二USB接口或者I2C接口与处理芯片连接,其中,在BMC通过I2C接口与处理芯片连接时,BMC用于通过I2C接口从处理芯片读取运行信息和异常检测结果,在BMC通过第二USB接口与处理芯片连接时,BMC用于通过第二USB接口从处理芯片读取运行信息和异常检测结果。
在一个示例性实施例中,系统还包括:上位机,其中,上位机通过BMC与处理芯片连接,用于通过BMC读取运行信息和异常检测结果。
在一个示例性实施例中,系统还包括:PHY芯片,其中,PHY芯片与上位机连接,用于将运行信息和异常检测结果发送至上位机。
在一个示例性实施例中,PCIe设备中包括协议分析仪,其中,协议分析仪,用于检测PCIe设备的上下行链路中传输的数据包,并在上下行链路中传输数据包的过程中出现异常的情况下,获取上下行链路传输数据包的链路追踪信息,运行信息中包括链路追踪信息。
在本实施例中提供了一种服务器,上述实施例中的PCIe设备的异常检测系统。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图7是本申请实施例的一种PCIe设备的异常检测方法的移动终端的硬件结构框图。如图7所示,移动终端可以包括一个或多个(图7中仅示出一个)处理器702(处理器702可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器704,其中,上述移动终端还可以包括用于通信功能的传输设备706以及输入输出设备708。本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
存储器704可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的PCIe设备的异常检测方法对应的计算机程序,处理器702通过运行存储在存储器704内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器704可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器704可进一步包括相对于处理器702远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备706包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备706可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种PCIe设备的异常检测方法,图8是根据本申请实施例的PCIe设备的异常检测方法的流程图,如图8所示,该流程包括如下步骤:
步骤S802,在PCIe设备出现异常时,通过第一UART接口获取PCIe设备的运行信息,其中,PCIe设备为支持PCIe链路连接的设备,PCIe设备通过PCIe链路与CPU连接,PCIe设备中包括协议分析仪,其中,协议分析仪,用于检测PCIe设备的上下行链路中传输的数据包,并在上下行链路中传输数据包的过程中出现异常的情况下,获取上下行链路传输数据包的链路追踪信息,运行信息中包括链路追踪信息;
步骤S804,基于运行信息检测PCIe设备的异常;
步骤S806,通过第一USB接口将运行信息和异常检测结果传输至CPU。
通过上述步骤,异常检测设备是独立于BMC的设备,在PCIe设备出现异常时,通过第一UART接口获取PCIe设备的运行信息,其中,PCIe设备为支持PCIe链路连接的设备,PCIe设备通过PCIe链路与CPU连接,并基于运行信息检测PCIe设备的异常,通过第一USB接口将运行信息和异常检测结果传输至CPU,并通过存储设备存储运行信息和异常检测结果。并不依赖BMC的性能和存储能力,可以在PCIe设备出现异常时,实时获取异常时刻的PCIe设备的全部运行信息。因此,可以解决相关技术中无法实时获取PCIe设备异常时的异常信息,导致确定异常问题的时间长、准确率低的问题,达到实时获取PCIe设备异常时的异常信息,减少确定异常问题的时间、提高确定异常的准确率的效果。
其中,上述步骤的执行主体可以为终端、服务器、终端或服务器中设置的具体处理器,或者与终端或者服务器相对独立设置的处理器或者处理设备,但不限于此。
在一个示例性实施例中,在PCIe设备出现异常时,通过第一UART接口获取PCIe设备的运行信息,包括:通过PCIe设备中的协议分析仪获取链路追踪信息,得到运行信息,其中,协议分析仪用于检测PCIe设备的上下行链路中传输的数据包,并在上下行链路中传输数据包的过程中出现异常的情况下,获取上下行链路传输数据包的链路追踪信息;或者,接收BMC发送的异常中断指令,并响应异常中断指令,通过第一UART接口获取运行信息。
在一个示例性实施例中,基于运行信息检测PCIe设备的异常,包括:将运行信息输入至异常分析模型,得到异常分析模型输出的PCIe设备的异常,其中,异常分析模型是基于异常样本数据集训练得到的模型,异常样本数据集是通过标注样本运行信息中的异常原因得到的数据集。
在一个示例性实施例中,基于运行信息检测PCIe设备的异常之后,上述方法还包括:通过BMC将运行信息和异常检测结果传输至上位机;或者,通过PHY芯片将运行信息和异常检测结果传输至上位机。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在本实施例中还提供了一种PCIe设备的异常检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图9是根据本申请实施例的PCIe设备的异常检测装置的结构框图,如图9所示,该装置包括:
第一获取模块92,用于在PCIe设备出现异常时,通过第一UART接口获取PCIe设备的运行信息,其中,PCIe设备为支持PCIe链路连接的设备,PCIe设备通过PCIe链路与CPU连接,PCIe设备中包括协议分析仪,其中,协议分析仪,用于检测PCIe设备的上下行链路中传输的数据包,并在上下行链路中传输数据包的过程中出现异常的情况下,获取上下行链路传输数据包的链路追踪信息,运行信息中包括链路追踪信息;
第一检测模块94,用于基于运行信息检测PCIe设备的异常;
第一传输模块96,用于通过第一USB接口将运行信息和异常检测结果传输至CPU。
在一个示例性实施例中,上述第一获取模块92,包括:第一获取单元,用于通过PCIe设备中的协议分析仪获取链路追踪信息,得到运行信息,其中,协议分析仪用于检测PCIe设备的上下行链路中传输的数据包,并在上下行链路中传输数据包的过程中出现异常的情况下,获取上下行链路传输数据包的链路追踪信息;或者,第一接收单元,用于接收BMC发送的异常中断指令,并响应异常中断指令,通过第一UART接口获取运行信息。
在一个示例性实施例中,上述第一检测模块94,包括:第一输入单元,用于将运行信息输入至异常分析模型,得到异常分析模型输出的PCIe设备的异常,其中,异常分析模型是基于异常样本数据集训练得到的模型,异常样本数据集是通过标注样本运行信息中的异常原因得到的数据集。
在一个示例性实施例中,上述装置还包括:第二传输模块,用于基于运行信息检测PCIe设备的异常之后,通过BMC将运行信息和异常检测结果传输至上位机;或者,第三传输模块,用于通过PHY芯片将运行信息和异常检测结果传输至上位机。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (20)
1.一种PCIe设备的异常检测设备,其特征在于,包括:处理芯片和存储设备,其中,
所述处理芯片允许通过多种类型的接口与PCIe设备和CPU连接,所述处理芯片用于在所述PCIe设备出现异常时,通过第一UART接口获取所述PCIe设备的运行信息,并基于所述运行信息检测所述PCIe设备的异常,通过第一USB接口将所述运行信息和异常检测结果传输至所述CPU,其中,所述PCIe设备为支持PCIe链路连接的设备,所述PCIe设备通过所述PCIe链路与所述CPU连接;
所述处理芯片和所述PCIe设备中的协议分析仪连接,其中,所述协议分析仪,用于检测所述PCIe设备的上下行链路中传输的数据包,并在所述上下行链路中传输所述数据包的过程中出现异常的情况下,获取所述上下行链路传输所述数据包的链路追踪信息,所述运行信息中包括所述链路追踪信息;
所述存储设备与所述处理芯片连接,用于存储所述运行信息和所述异常检测结果。
2.根据权利要求1所述的设备,其特征在于,在所述异常检测设备设置在服务器之内时,所述处理芯片通过第二USB接口或者I2C接口与BMC连接,其中,
在所述处理芯片通过所述I2C接口与所述BMC连接时,所述处理芯片用于通过所述I2C接口将所述运行信息和所述异常检测结果发送至所述BMC;
在所述处理芯片通过所述第二USB接口与所述BMC连接时,所述处理芯片用于通过所述第二USB接口将所述运行信息和所述异常检测结果发送至所述BMC。
3.根据权利要求1所述的设备,其特征在于,在所述异常检测设备设置在服务器之内时,所述处理芯片通过第二UART接口与BMC连接,其中,
所述处理芯片,用于通过所述第二UART接口接收所述BMC发送的通信指令,并响应所述通信指令,建立所述PCIe设备与上位机之间的通信,所述上位机用于获取所述运行信息和所述异常检测结果;或者,
所述处理芯片,用于将所述运行信息和所述异常检测结果通过所述BMC发送至所述上位机。
4.根据权利要求1所述的设备,其特征在于,所述处理芯片,还用于标注获取的样本运行信息中的异常原因,得到异常样本数据集,并利用所述异常样本数据集训练得到异常分析模型,其中,所述异常分析模型设置在所述处理芯片中,所述异常分析模型用于基于所述运行信息预测所述PCIe设备的异常并生成告警信息。
5.根据权利要求1所述的设备,其特征在于,
所述处理芯片,还用于接收BMC发送的异常中断指令,并响应所述异常中断指令,通过所述第一UART接口获取所述链路追踪信息。
6.根据权利要求1所述的设备,其特征在于,在所述异常检测设备设置在服务器之外时,所述处理芯片通过PHY芯片与上位机连接,以将所述运行信息和所述异常检测结果发送至所述上位机。
7.根据权利要求1所述的设备,其特征在于,所述处理芯片以虚拟设备的形式显示在操作系统中,所述处理芯片允许在所述操作系统中通过所述虚拟设备对所述运行信息和所述异常检测结果进行读取。
8.根据权利要求1所述的设备,其特征在于,在所述存储设备包括多个时,多个所述存储设备通过所述处理芯片组成磁盘阵列,多个所述存储设备中包括主用存储设备和备用存储设备。
9.一种PCIe设备的异常检测系统,其特征在于,包括异常检测设备和PCIe设备,其中,
所述异常检测设备上部署了处理芯片和存储设备,所述处理芯片中包括多种类型的接口;
所述多种类型的接口中的第一UART接口用于连接所述PCIe设备,所述多种类型的接口中的第一USB接口用于连接CPU,其中,所述PCIe设备为支持PCIe链路连接的设备,所述PCIe设备通过所述PCIe链路与所述CPU连接;
所述处理芯片,用于在所述PCIe设备出现异常时,获取所述PCIe设备的运行信息,并基于所述运行信息检测所述PCIe设备的异常,将所述运行信息和异常检测结果传输至所述CPU;
所述PCIe设备中包括协议分析仪,其中,所述协议分析仪,用于检测所述PCIe设备的上下行链路中传输的数据包,并在所述上下行链路中传输所述数据包的过程中出现异常的情况下,获取所述上下行链路传输所述数据包的链路追踪信息,所述运行信息中包括所述链路追踪信息;
所述存储设备与所述处理芯片连接,用于存储所述运行信息和所述异常检测结果。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括:BMC,其中,
所述BMC通过第二USB接口或者I2C接口与所述处理芯片连接,其中,在所述BMC通过所述I2C接口与所述处理芯片连接时,所述BMC用于通过所述I2C接口从所述处理芯片读取所述运行信息和所述异常检测结果,在所述BMC通过所述第二USB接口与所述处理芯片连接时,所述BMC用于通过所述第二USB接口从所述处理芯片读取所述运行信息和所述异常检测结果。
11.根据权利要求9所述的系统,其特征在于,所述系统还包括:上位机和PHY芯片,其中,
所述上位机通过BMC与所述处理芯片连接,用于通过所述BMC读取所述运行信息和所述异常检测结果;
所述PHY芯片与所述上位机连接,用于将所述运行信息和所述异常检测结果发送至所述上位机。
12.一种服务器,其特征在于,包括权利要求9-11任一项所述的PCIe设备的异常检测系统。
13.一种PCIe设备的异常检测方法,其特征在于,包括:
在PCIe设备出现异常时,通过第一UART接口获取所述PCIe设备的运行信息,其中,所述PCIe设备为支持PCIe链路连接的设备,所述PCIe设备通过所述PCIe链路与CPU连接,所述PCIe设备中包括协议分析仪,其中,所述协议分析仪,用于检测所述PCIe设备的上下行链路中传输的数据包,并在所述上下行链路中传输所述数据包的过程中出现异常的情况下,获取所述上下行链路传输所述数据包的链路追踪信息,所述运行信息中包括所述链路追踪信息;
基于所述运行信息检测所述PCIe设备的异常;
通过第一USB接口将所述运行信息和异常检测结果传输至所述CPU。
14.根据权利要求13所述的方法,其特征在于,在PCIe设备出现异常时,通过第一UART接口获取所述PCIe设备的运行信息,包括:
接收BMC发送的异常中断指令,并响应所述异常中断指令,通过所述第一UART接口获取所述运行信息。
15.根据权利要求14所述的方法,其特征在于,基于所述运行信息检测所述PCIe设备的异常,包括:
将所述运行信息输入至异常分析模型,得到所述异常分析模型输出的所述PCIe设备的异常,其中,所述异常分析模型是基于异常样本数据集训练得到的模型,所述异常样本数据集是通过标注样本运行信息中的异常原因得到的数据集。
16.根据权利要求13所述的方法,其特征在于,基于所述运行信息检测所述PCIe设备的异常之后,所述方法还包括:
通过BMC将所述运行信息和异常检测结果传输至上位机;或者,
通过PHY芯片将所述运行信息和异常检测结果传输至上位机。
17.根据权利要求13所述的方法,其特征在于,所述方法还包括:
在操作系统中通过虚拟设备对所述运行信息和所述异常检测结果进行读取。
18.一种PCIe设备的异常检测装置,其特征在于,包括:
第一获取模块,用于在PCIe设备出现异常时,通过第一UART接口获取所述PCIe设备的运行信息,其中,所述PCIe设备为支持PCIe链路连接的设备,所述PCIe设备通过所述PCIe链路与CPU连接,所述PCIe设备中包括协议分析仪,其中,所述协议分析仪,用于检测所述PCIe设备的上下行链路中传输的数据包,并在所述上下行链路中传输所述数据包的过程中出现异常的情况下,获取所述上下行链路传输所述数据包的链路追踪信息,所述运行信息中包括所述链路追踪信息;
第一检测模块,用于基于所述运行信息检测所述PCIe设备的异常;
第一传输模块,用于通过第一USB接口将所述运行信息和异常检测结果传输至所述CPU。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求13至17任一项中所述的方法的步骤。
20.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求13至17任一项中所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410134604.9A CN117687859B (zh) | 2024-01-31 | 2024-01-31 | PCIe设备的异常检测设备、系统、服务器、方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410134604.9A CN117687859B (zh) | 2024-01-31 | 2024-01-31 | PCIe设备的异常检测设备、系统、服务器、方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117687859A CN117687859A (zh) | 2024-03-12 |
CN117687859B true CN117687859B (zh) | 2024-04-12 |
Family
ID=90135576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410134604.9A Active CN117687859B (zh) | 2024-01-31 | 2024-01-31 | PCIe设备的异常检测设备、系统、服务器、方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117687859B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043748A (zh) * | 2009-10-13 | 2011-05-04 | 无锡江南计算技术研究所 | PCIe测试平台 |
US20110185235A1 (en) * | 2010-01-26 | 2011-07-28 | Fujitsu Limited | Apparatus and method for abnormality detection |
CN109002404A (zh) * | 2018-06-26 | 2018-12-14 | 联想(北京)有限公司 | Pcie设备及其监控方法 |
US20230004979A1 (en) * | 2020-08-20 | 2023-01-05 | Tencent Technology (Shenzhen) Company Limited | Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium |
-
2024
- 2024-01-31 CN CN202410134604.9A patent/CN117687859B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043748A (zh) * | 2009-10-13 | 2011-05-04 | 无锡江南计算技术研究所 | PCIe测试平台 |
US20110185235A1 (en) * | 2010-01-26 | 2011-07-28 | Fujitsu Limited | Apparatus and method for abnormality detection |
CN109002404A (zh) * | 2018-06-26 | 2018-12-14 | 联想(北京)有限公司 | Pcie设备及其监控方法 |
US20230004979A1 (en) * | 2020-08-20 | 2023-01-05 | Tencent Technology (Shenzhen) Company Limited | Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN117687859A (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101976217B (zh) | 网络处理器异常检测方法及系统 | |
CN102571498B (zh) | 故障注入控制方法和装置 | |
CN114328102B (zh) | 设备状态监控方法、装置、设备及计算机可读存储介质 | |
CN106815119A (zh) | 服务器的硬件监控装置 | |
CN108287780A (zh) | 一种监控服务器cpld状态的装置及方法 | |
EP0348704B1 (en) | Apparatus and method for simultaneously presenting error interrupt and error data to a support processor | |
CN104502832A (zh) | 基于手持pos机主板自动测试仪及测试方法 | |
CN110932887A (zh) | 一种bmc调试方法、系统及装置 | |
CN112882901A (zh) | 一种分布式处理系统健康状态智能监控器 | |
CN103856364A (zh) | 总线信号监测装置及方法 | |
CN113377701B (zh) | 基于复杂可编程逻辑器件cpld的串口控制系统及其通信方法 | |
CN104734904A (zh) | 旁路设备的自动测试方法及系统 | |
CN108363477A (zh) | 服务器上电状态监测系统及方法、计算机存储器及设备 | |
CN104239174A (zh) | Bmc远程调试系统及方法 | |
CN117687859B (zh) | PCIe设备的异常检测设备、系统、服务器、方法 | |
CN115599617B (zh) | 总线检测方法、装置、服务器及电子设备 | |
CN108399116A (zh) | 一种服务器上电状态监测系统及方法 | |
CN117271234A (zh) | 故障诊断方法、装置、存储介质及电子装置 | |
CN112486877B (zh) | 一种通用化fc转换接口模块的外场保障与测试平台 | |
CN105634871A (zh) | 基于AXIe的智能平台管理系统测试仪器 | |
CN116719712B (zh) | 处理器串口日志输出方法、装置、电子设备及存储介质 | |
CN217508790U (zh) | 一种多功能Modbus设备测试装置 | |
CN108388488A (zh) | 一种智能平台管理系统及故障处理方法 | |
CN115981880B (zh) | 避免主机访问从机出现死锁的方法、装置、系统、存储介质及芯片 | |
CN117971610B (zh) | 一种硬盘监控方法、装置、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |