CN110096467A - 一种获取pcie设备状态信息的方法及相关装置 - Google Patents

一种获取pcie设备状态信息的方法及相关装置 Download PDF

Info

Publication number
CN110096467A
CN110096467A CN201910313931.XA CN201910313931A CN110096467A CN 110096467 A CN110096467 A CN 110096467A CN 201910313931 A CN201910313931 A CN 201910313931A CN 110096467 A CN110096467 A CN 110096467A
Authority
CN
China
Prior art keywords
error message
bmc
pcie device
status information
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910313931.XA
Other languages
English (en)
Other versions
CN110096467B (zh
Inventor
李然
叶伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Power Commercial Systems Co Ltd
Original Assignee
Inspur Power Commercial Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Power Commercial Systems Co Ltd filed Critical Inspur Power Commercial Systems Co Ltd
Priority to CN201910313931.XA priority Critical patent/CN110096467B/zh
Publication of CN110096467A publication Critical patent/CN110096467A/zh
Application granted granted Critical
Publication of CN110096467B publication Critical patent/CN110096467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3027Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4022Coupling between buses using switching circuits, e.g. switching matrix, connection or expansion network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种应用于OpenPOWER设备中的获取PCIE设备状态信息的方法,为提升易用性,本申请充分利用了OpenPOWER平台下RTAS接口的作用,使其作为沟通自身与BMC的桥梁,由于BMC作为独立控制器,其可以在操作系统之外向用户呈现一些信息,因此在将记录于messages文件中的错误信息发送至BMC之后,用户就可以通过带外的方式简单便捷的查看到这部分信息,易用性更高,用户体验更佳。本申请还同时公开了一种获取PCIE设备状态信息的装置、电子设备及计算机可读存储介质,具有上述有益效果。

Description

一种获取PCIE设备状态信息的方法及相关装置
技术领域
本申请涉及OpenPOWER领域,特别涉及一种应用在OpenPOWER设备中的获取PCIE设备状态信息的方法、装置、电子设备及计算机可读存储介质。
背景技术
近年来随着云计算和大数据的发展,服务器的需求越来越多,服务器一个系统内一般有多颗处理器,每个处理器内部有IO模块,每个IO模块可以最多扩展10个PCIE(Peripheral Component Interconnect Express,一种高速串行计算机扩展总线标准)设备,一台32路服务器可扩展的PCIE设备可达320 个,这些设备可能同时工作在一个操作系统下,如何高效地管理这些PCIE设备是一大困难。
目前OpenPOWER平台下的服务器配套的操作系统负责处理PCIE错误的是EEH模块,该模块会通过持续轮询的方式依次检测每一个PCIE设备的运行状态,如果返回状态异常,将会触发PCIE错误处理机制,将会把错误信息记录在操作系统的messages文件中,错误信息将十分有助于用户了解当前设备整体运转情况、保证设备长时间高效运行。
需要指出的是,由于错误信息被记录在操作系统的messages,因此常规操作下只能首先登录操作系统,而后才能从messages中获取到这些错误信息 (即通过带内的方式),比较繁琐且需要有一定的技术基础。而随着 OpenPOWER设备的广泛应用,用户对其易用性提出了更高的要求。
因此,相较于现有只能通过带内方式获取到错误信息的方案,如何提供一种易用性更高、错误信息获取更方便快捷的方案,是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种应用于OpenPOWER设备中的获取PCIE设备状态信息的方法、装置、电子设备及计算机可读存储介质,旨在提供一种相较于现有技术来讲易用性更高、错误信息获取更方便快捷的方法。
为实现上述目的,本申请提供一种获取PCIE设备状态信息的方法,应用于OpenPOWER设备,该方法包括:
轮询检查每个PCIE设备的运行状态;
将处于异常状态的PCIE设备对应的错误信息记录操作系统的messages 文件中;
通过RTAS接口将记录在所述messages文件中的错误信息发送给BMC,以使用户通过所述BMC在带外获取到所述错误信息。
可选的,该获取PCIE设备状态信息的方法还包括:
将与所述错误信息对应的解决方案通过所述RTAS接口发送给所述 BMC。
可选的,该获取PCIE设备状态信息的方法还包括:
对发送给所述BMC的错误信息按错误是否已被修复进行分类,并对每类错误信息附加不同的类型标记。
可选的,该获取PCIE设备状态信息的方法还包括:
根据所述messages文件中记录的内容统计得到每种错误信息的出现频率;
将所述出现频率高于预设频率的错误信息通过预设路径发出错误多发警告。
为实现上述目的,本申请还提供了一种获取PCIE设备状态信息的装置,应用于OpenPOWER设备,该装置包括:
运行状态轮询检查单元,用于轮询检查每个PCIE设备的运行状态;
错误信息记录单元,用于将处于异常状态的PCIE设备对应的错误信息记录操作系统的messages文件中;
错误信息外发单元,用于通过RTAS接口将记录在所述messages文件中的错误信息发送给BMC,以使用户通过所述BMC在带外获取到所述错误信息。
可选的,该获取PCIE设备状态信息的装置还包括:
解决方案发送单元,用于将与所述错误信息对应的解决方案通过所述 RTAS接口发送给所述BMC。
可选的,该获取PCIE设备状态信息的装置还包括:
分类及标记附加单元,用于对发送给所述BMC的错误信息按错误是否已被修复进行分类,并对每类错误信息附加不同的类型标记。
可选的,该获取PCIE设备状态信息的装置还包括:
出现频率统计单元,用于根据所述messages文件中记录的内容统计得到每种错误信息的出现频率;
错误多发警告发出单元,用于将所述出现频率高于预设频率的错误信息通过预设路径发出错误多发警告。
为实现上述目的,本申请还提供了一种电子设备,该电子设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述内容所描述的获取PCIE 设备状态信息的方法。
为实现上述目的,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述内容所描述的获取PCIE设备状态信息的方法。
根据申请提供的获取PCIE设备状态信息的方法可以看出,为提升易用性,本申请充分利用了OpenPOWER平台下RTAS接口的作用,使其作为沟通自身与BMC的桥梁,由于BMC作为独立控制器,其可以在操作系统之外向用户呈现一些信息,因此在将记录于messages文件中的错误信息发送至BMC之后,用户就可以通过带外的方式简单便捷的查看到这部分信息,易用性更高,用户体验更佳。本申请同时还提供了一种获取PCIE设备状态信息的装置、电子设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种获取PCIE设备状态信息的方法的流程图;
图2为现有技术下记录反映PCIE设备发生的错误信息的示意图;
图3为本申请实施例提供的一种记录反映PCIE设备发生的错误信息的示意图;
图4为本申请实施例在图1所示内容的基础上额外提供的一种根据错误信息的出现频率针对性发出多发错误提醒的方法的流程图;
图5为本申请实施例提供的一种获取PCIE设备状态信息的装置的结构框图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请的目的是提供一种应用于OpenPOWER设备中的获取PCIE设备状态信息的方法、装置、电子设备及计算机可读存储介质,旨在提供一种相较于现有技术来讲易用性更高、错误信息获取更方便快捷的方法。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例一
请参见图1,图1为本申请实施例提供的一种获取PCIE设备状态信息的方法的流程图,需要说明的是,本申请所提供的技术方案的执行主体为 OpenPOWER设置中用于检查PCIE运行状态的EEH模块,旨在通过额外的技术步骤使其能够将PCIE设备产生的错误信息让用户更容易的查看到,增加其易用性,为实现这一目的,本实施例给出了一种通过以下步骤来实现的方法:
S101:轮询检查每个PCIE设备的运行状态;
EEH模块受安装在OpenPOWER设备中的操作系统下的设备驱动(Device Drive)的控制,持续的以轮询的方式检查每一个PCIE设备的运行状态,在实际应用场景下,EEH模块会接收到每个PCIE设备反馈回的状态信息,通常会以量化的参数进行表示,通过对比预设的正常运行状态下的参数确定出哪些 PCIE设备当前处于异常工作状态,并得出其对应的错误信息。
S102:将处于异常状态的PCIE设备对应的错误信息记录操作系统的messages文件中;
在S101的基础上,本步骤旨在将处于异常状态的PCIE设备对应的错误信息记录在操作系统的messages文件中,以使得在正常手段下用户可以在登陆操作系统后,通过访问messages文件来获取到这部分错误信息。
还需要说明的是,EEH模块在通过量化参数判断出某个PCIE设备异常或发生错误时,通常还会触发错误修正机制,但EEH模块所提供的错误修正机制是一个简单的修正机制,即通过重启有问题的PCIE设备来观察错误是否依然出现,若错误依然存在,则EEH模块将判断此错误不是自身修正机制能够进行修正的错误,还需要外界其它修正机制的介入,为防止存在错误的PCIE 设备对系统运行造成影响,还会将其从系统中离线,使得系统不再能够识别到该PCIE设备;若错误消失,则说明这是一个波动性错误,可以通过重启的方式进行修正。因此,通常EEH模块在将错误信息记录在messages文件中时,通常还会将其修正结果一并放入messages文件中。
上述S101和S102步骤为现有技术所提供的技术方案,可参见如图2所示的示意图,对应于S101和S102所提供的技术方案,其中,轮询获取PCIE设备运行状态的方式即为从PCIE设备配置空间和MMIO(Memory-mapped I/O,内存映射I/O,是PCI规范的一部分)空间的方式来实现,最终将错误信息和修正结果记录在操作系统的messages文件中。
S103:通过RTAS接口将记录在messages文件中的错误信息发送给BMC,以使用户通过BMC在带外获取到错误信息。
为实现本申请增强易用性的目的,本步骤在S101和S102的基础上,还通过调用RTAS(Run-Time Abstraction Services,中文名为:抽象服务,是运行在IBM公司OpenPOWER服务器上的一种将操作系统运行状态抽象化的运行固件,与传统X86服务器使用的开源固件对比,开源固件只是运行在系统启动的时候,而运行固件是在服务器工作时一直运行,该RTAS作为连接底层硬件与上层系统相关联的接口可以实时的监控系统的状态)接口的方式将记录在 messages文件中的错误信息发送至BMC(Baseboard Management Controller,基板管理控制器),得以充分利用BMC作为独立控制器的特性,使得用户可以通过带外管理的方式更加便捷的获取到这些错误信息,而无需通过S101和 S102对应的带内管理方式。
其中,网络管理可分为带外管理(out-of-band)和带内管理(in-band)两种管理模式。所谓带内管理,是指网络的管理控制信息与用户网络的承载业务信息通过同一个逻辑信道传送;而在带外管理模式中,网络的管理控制信息与用户网络的承载业务信息在不同的逻辑信道传送。
简单的来说,诸如S101和S102所提供的方案就是带内管理,即必须通过网络来实现对设备的管理、信息的获取,一旦无法通过网络访问被管理对象,带内管理方式就失效了,这时候带外管理方式就排上用场了。在某些情况下,带外管理方式不仅作为带内管理方式的备用方式,也能够以更少的操作步骤获取到一些低权限、低风险但有用的信息。
区别于图2所示的现有技术的实现方案,增加了S103步骤的实现方案可参见图3,可以看出,通过应用在Open Firmware(固件)中的RTAS接口,可以将EEH模块记录在messages文件中的错误信息转发给带外的BMC,即RTAS接口将作为沟通位于操作系统内(带内)的EEH模块自身与带外的BMC之间的桥梁来实现本申请增加易用性的目的。
进一步的,为了进一步增加易用性,提升信息的整合度和信息展示能力,还可以对发送给BMC的错误信息按错误是否已被修复进行分类,并对每类错误信息附加不同的类型标记,即将错误信息按EEH模块自身修正机制修正后得到的修正结果进行分类,因为相较于能够被EEH模块修正的错误,仍未被修正的错误明显更需要引起用户的注意。标记的附加不仅可以方便筛选,还有利于后续可能需要进行的统计操作。
更进一步的,为了降低非专业技术人员根据错误信息修正错误的难度,还可以将与错误信息对应的解决方案一并发往BMC,以由BMC将解决方案和错误信息同时展示给用户,使得不够专业的技术人员也可以直接根据给出的解决方案进行后续的修复操作。
同时,由于直接发出的错误信息往往是代码化的,不便于更加直观的理解,因此还可以应用一些内容或字符串的替换方法来将其替换为更便于用户理解的错误信息。
根据申请提供的获取PCIE设备状态信息的方法可以看出,为提升易用性,本申请充分利用了OpenPOWER平台下RTAS接口的作用,使其作为沟通自身与BMC的桥梁,由于BMC作为独立控制器,其可以在操作系统之外向用户呈现一些信息,因此在将记录于messages文件中的错误信息发送至BMC之后,用户就可以通过带外的方式简单便捷的查看到这部分信息,易用性更高,用户体验更佳。
实施例二
请参见图4,图4为本申请实施例在图1所示内容的基础上额外提供的一种根据错误信息的出现频率针对性发出多发错误提醒的方法的流程图,本实例在实施例一的基础上,针对一段时间内容EEH模块采集到的错误信息,提供一种错误分析和针对性的错误预警方法,可以分析出经常性的多发错误信息,并针对性的向使用者发出预警,以便于通过后续针对性的优化来减少同类错误的发生频率,包括以下步骤:
S201:根据messages文件中记录的内容统计得到每种错误信息的出现频率;
S202:将出现频率高于预设频率的错误信息通过预设路径发出错误多发警告。
本实施例通过对messages文件中记录的内容进行统计,得到每种错误信息的出现频率,并通过与预先设定好的出现频率进行比较,筛选出多发错误,并针对性的通过预设路径发出错误多发警告。其中,该预设路径可以为短信、邮件、即时通讯软件、警示弹窗以及声光电报警器等等,此处并不做具体限定,可以根据实际情况下所有可能存在的特殊要求灵活选择或自由组合。
因为情况复杂,无法一一列举进行阐述,本领域技术人员应能意识到根据本申请提供的基本方法原理结合实际情况可以存在很多的例子,在不付出足够的创造性劳动下,应均在本申请的保护范围内。
实施例三
下面请参见图5,图5为本申请实施例提供的一种获取PCIE设备状态信息的装置的结构框图,应用于OpenPOWER设备中的该装置可以包括:
运行状态轮询检查单元100,用于轮询检查每个PCIE设备的运行状态;
错误信息记录单元200,用于将处于异常状态的PCIE设备对应的错误信息记录操作系统的messages文件中;
错误信息外发单元300,用于通过RTAS接口将记录在messages文件中的错误信息发送给BMC,以使用户通过BMC在带外获取到错误信息。
进一步的,该获取PCIE设备状态信息的装置还可以包括:
解决方案发送单元,用于将与错误信息对应的解决方案通过RTAS接口发送给BMC。
进一步的,该获取PCIE设备状态信息的装置还可以包括:
分类及标记附加单元,用于对发送给BMC的错误信息按错误是否已被修复进行分类,并对每类错误信息附加不同的类型标记。
更进一步的,该获取PCIE设备状态信息的装置还可以包括:
出现频率统计单元,用于根据messages文件中记录的内容统计得到每种错误信息的出现频率;
错误多发警告发出单元,用于将出现频率高于预设频率的错误信息通过预设路径发出错误多发警告。
本实施例作为与上述方法实施例对应的装置实施例存在,各功能单元对应与方法实施例中的各步骤,拥有方法实施例的全部有益效果,此处不再一一赘述。
在上文中已经通过上述实施例对如何通过RTAS接口实现将错误XXXX 进行了详细的描述,与此同时,本申请还提供一种与该方法对应的实体硬件,此部分内容原理与方案部分相对应,实现原理的部分此处不再赘述,以下将对该实体硬件装置的硬件组成进行描述,请参见图6,图6为本申请实施例提供的一种电子设备的结构示意图:
该电子设备400包括存储器410、处理器420以及总线430,存储器410上存储有可在处理器420上运行的PCIE设备状态信息带外转发程序,该PCIE设备状态信息带外转发程序通过总线430被传输至处理器420,并在被处理器420执行时可实现如上述实施例所描述的获取PCIE设备状态信息方法中的各步骤。
其中,存储器410至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器410在一些实施例中可以是电子设备400的内部存储单元,例如该电子设备400的硬盘。存储器410在另一些实施例中也可以是该电子设备400的外部存储设备,例如该电子设备400上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器410还可以同时由内部存储单元和外部存储设备同时组成。进一步的,存储器410不仅可以用于存储安装于该电子设备400中的各种应用软件和各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器420在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器/微控制器、微处理器或其他数据处理芯片,用于运行存储器 410中存储的程序代码或处理数据,例如PCIE设备状态信息带外转发程序等。
总线430可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称 EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条双向中空指示线表示,但并不表示仅有一根总线或一种类型的总线。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例中所给出的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种获取PCIE设备状态信息的方法,其特征在于,应用于OpenPOWER设备,包括:
轮询检查每个PCIE设备的运行状态;
将处于异常状态的PCIE设备对应的错误信息记录操作系统的messages文件中;
通过RTAS接口将记录在所述messages文件中的错误信息发送给BMC,以使用户通过所述BMC在带外获取到所述错误信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
将与所述错误信息对应的解决方案通过所述RTAS接口发送给所述BMC。
3.根据权利要求1所述的方法,其特征在于,还包括:
对发送给所述BMC的错误信息按错误是否已被修复进行分类,并对每类错误信息附加不同的类型标记。
4.根据权利要求1至3任一项所述的方法,其特征在于,还包括:
根据所述messages文件中记录的内容统计得到每种错误信息的出现频率;
将所述出现频率高于预设频率的错误信息通过预设路径发出错误多发警告。
5.一种获取PCIE设备状态信息的装置,其特征在于,应用于OpenPOWER设备,包括:
运行状态轮询检查单元,用于轮询检查每个PCIE设备的运行状态;
错误信息记录单元,用于将处于异常状态的PCIE设备对应的错误信息记录操作系统的messages文件中;
错误信息外发单元,用于通过RTAS接口将记录在所述messages文件中的错误信息发送给BMC,以使用户通过所述BMC在带外获取到所述错误信息。
6.根据权利要求5所述的装置,其特征在于,还包括:
解决方案发送单元,用于将与所述错误信息对应的解决方案通过所述RTAS接口发送给所述BMC。
7.根据权利要求5所述的装置,其特征在于,还包括:
分类及标记附加单元,用于对发送给所述BMC的错误信息按错误是否已被修复进行分类,并对每类错误信息附加不同的类型标记。
8.根据权利要求5至7任一项所述的装置,其特征在于,还包括:
出现频率统计单元,用于根据所述messages文件中记录的内容统计得到每种错误信息的出现频率;
错误多发警告发出单元,用于将所述出现频率高于预设频率的错误信息通过预设路径发出错误多发警告。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述的获取PCIE设备状态信息的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的获取PCIE设备状态信息的方法。
CN201910313931.XA 2019-04-18 2019-04-18 一种获取pcie设备状态信息的方法及相关装置 Active CN110096467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910313931.XA CN110096467B (zh) 2019-04-18 2019-04-18 一种获取pcie设备状态信息的方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910313931.XA CN110096467B (zh) 2019-04-18 2019-04-18 一种获取pcie设备状态信息的方法及相关装置

Publications (2)

Publication Number Publication Date
CN110096467A true CN110096467A (zh) 2019-08-06
CN110096467B CN110096467B (zh) 2021-01-22

Family

ID=67445200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910313931.XA Active CN110096467B (zh) 2019-04-18 2019-04-18 一种获取pcie设备状态信息的方法及相关装置

Country Status (1)

Country Link
CN (1) CN110096467B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360436A (zh) * 2020-03-06 2021-09-07 浙江宇视科技有限公司 PCIe设备的处理方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1330319A (zh) * 2000-06-22 2002-01-09 国际商业机器公司 在运行期间从机器校验中断中恢复的方法
US20020184576A1 (en) * 2001-03-29 2002-12-05 International Business Machines Corporation Method and apparatus for isolating failing hardware in a PCI recoverable error
US20040205393A1 (en) * 2003-04-10 2004-10-14 International Business Machines Corporation Method and apparatus for reporting errors in a data processing system
US20140115382A1 (en) * 2012-10-18 2014-04-24 International Business Machines Corporation Scheduling Workloads Based on Detected Hardware Errors
CN104660471A (zh) * 2015-03-10 2015-05-27 浪潮集团有限公司 一种Linux下自动测试PCIE-SSD传输速率和带宽的方法
CN106897431A (zh) * 2017-02-27 2017-06-27 郑州云海信息技术有限公司 一种日志导出方法及系统
CN108989145A (zh) * 2018-06-26 2018-12-11 郑州云海信息技术有限公司 一种网卡虚拟化特性的测试方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1330319A (zh) * 2000-06-22 2002-01-09 国际商业机器公司 在运行期间从机器校验中断中恢复的方法
US20020184576A1 (en) * 2001-03-29 2002-12-05 International Business Machines Corporation Method and apparatus for isolating failing hardware in a PCI recoverable error
US20040205393A1 (en) * 2003-04-10 2004-10-14 International Business Machines Corporation Method and apparatus for reporting errors in a data processing system
US20140115382A1 (en) * 2012-10-18 2014-04-24 International Business Machines Corporation Scheduling Workloads Based on Detected Hardware Errors
CN104660471A (zh) * 2015-03-10 2015-05-27 浪潮集团有限公司 一种Linux下自动测试PCIE-SSD传输速率和带宽的方法
CN106897431A (zh) * 2017-02-27 2017-06-27 郑州云海信息技术有限公司 一种日志导出方法及系统
CN108989145A (zh) * 2018-06-26 2018-12-11 郑州云海信息技术有限公司 一种网卡虚拟化特性的测试方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GAVIN SHAN: "《EEH Overview》", 31 December 2012 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360436A (zh) * 2020-03-06 2021-09-07 浙江宇视科技有限公司 PCIe设备的处理方法、装置、设备及存储介质
CN113360436B (zh) * 2020-03-06 2023-02-21 浙江宇视科技有限公司 PCIe设备的处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110096467B (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN109634818A (zh) 日志分析方法、系统、终端及计算机可读存储介质
CN110851321B (zh) 一种业务告警方法、设备及存储介质
US8819220B2 (en) Management method of computer system and management system
CN103220173B (zh) 一种报警监控方法及监控系统
WO2019223062A1 (zh) 系统异常的处理方法和系统
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN105373899A (zh) 一种服务器资产管理的方法及装置
CN109447485B (zh) 一种基于规则的实时决策系统及方法
CN106856508A (zh) 数据中心的云监控方法及云平台
CN113076229B (zh) 一种通用的企业级信息技术监控系统
CN105791028A (zh) 一种服务器集群的监控方法、服务器及系统
CN113313280B (zh) 云平台的巡检方法、电子设备及非易失性存储介质
CN110618911A (zh) 数据监控方法、装置、存储介质和服务器
CN111459692A (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
CN110413434A (zh) 服务器的异常识别方法及装置
CN114157679A (zh) 基于云原生分布式应用监控方法、装置、设备及介质
CN102195791A (zh) 一种告警的分析方法、装置及系统
CN105915518B (zh) 一种以太网数据帧实时解析方法及装置
CN110096467A (zh) 一种获取pcie设备状态信息的方法及相关装置
US11588677B2 (en) System and a method for recognizing and addressing network alarms in a computer network
CN112817827B (zh) 运维方法、装置、服务器、设备、系统及介质
US7016954B2 (en) System and method for processing unsolicited messages
CN109074293B (zh) 静观候选确定装置、方法以及计算机能读取的存储介质
CN108647124A (zh) 一种存储跳变信号的方法及其装置
CN108248641A (zh) 一种城市轨道交通数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant