CN113190396A

CN113190396A - 一种收集cpu寄存器数据的方法、系统及介质

Info

Publication number: CN113190396A
Application number: CN202110276652.8A
Authority: CN
Inventors: 袁传博; 罗鹏芳; 刘宝阳
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-07-30

Abstract

本发明公开了一种收集CPU寄存器数据的方法，包括以下步骤：设置延时策略，当服务器发生宕机时，逻辑器件获取服务器的宕机信息并发出宕机信号；当BMC检测到宕机信号时，判断BMC与CPU连接的链路是否正常；若链路正常，则通过PECI收集CPU寄存器中的数据，并提示CPU寄存器中的数据收集完成；若链路异常，则服务器进行软重启，通过BIOS收集CPU寄存器中的数据，将CPU寄存器中的数据发送至BMC中，判断BMC是否接收到CPU寄存器中的数据，根据判断结果提示CPU寄存器中的数据收集完成或失败；本发明能够通过PECI收集CPU寄存器数据或者通过BIOS收集寄存器数据降低服务器的维护成本，提高产品竞争力。

Description

一种收集CPU寄存器数据的方法、系统及介质

技术领域

本发明涉及数据处理领域，特别是涉及一种收集CPU寄存器数据的方法、系统及介质。

背景技术

随着信息技术的飞速发展，用户对服务器的可靠性和信息处理能力有了更高的要求。与传统服务器相比，基于Whitley平台的新一代服务器在计算性能和可靠性上与传统服务器相比具有很大的优势，并在对实时性、可靠性和可用性要求苛刻的领域中应用越来越广泛。同时基于Whitley平台的新一代服务器在发生故障的原因上更加复杂，对故障原因分析更加困难。

目前在服务器发生宕机时可以通过XDP或者Remote XDP来收集服务器CPU寄存器中的数据进行分析，但使用XDP方式需要人为将XDP设备接到服务器上，对于大批量部署的数据中心在操作上是不可行的，使用Remote XDP可以通过BMC远程收集CPU寄存器中的数据，虽然避免了XDP的问题，但是在时效性上也无法保障。因此在很多方案中提出了在发生宕机时由BMC通过PECI接口自动收集的方法，但BMC和CPU之间的PECI链路在服务器宕机时无法保证连通性，造成CPU寄存器读取失败。

发明内容

本发明主要解决是使用远程XDP的方式时效性无法保证，以及在服务器宕机时BMC和CPU之间的PECI链路无法保证连通性的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种收集CPU寄存器数据的方法，应用于服务器，包括以下步骤：

设置延时策略，通过逻辑器件监控所述服务器，当所述服务器发生宕机时，所述逻辑器件获取所述服务器的宕机信息并发出宕机信号；

BMC在第一时间内轮询所述宕机信号，当BMC检测到所述宕机信号时，判断所述BMC与所述服务器中CPU连接的链路是否正常；

若所述链路正常，则通过PECI收集CPU寄存器中的数据，所述BMC执行存储策略和更新策略，并提示所述CPU寄存器中的数据收集完成；

若所述链路异常，则所述服务器进行软重启，通过BIOS收集CPU寄存器中的数据，将所述CPU寄存器中的数据发送至所述BMC中，判断所述BMC是否接收到所述CPU寄存器中的数据，并根据判断结果提示所述CPU寄存器中的数据收集完成或失败。

优选的，所述延时策略为：在所述服务器的BIOS中设置S1状态的延时时间为第二时间，当所述服务器宕机时，不进入S1状态，若所述链路正常，在所述第二时间内，所述BMC通过PECI收集所述CPU寄存器中的数据，经过所述第二时间后进入S1状态。

优选的，所述存储策略为：将收集的CPU寄存器中的数据按照时间顺序进行降序排序，找到排名前三位收集CPU寄存器中的数据，记为第一数据，将第一数据保存至所述BMC的文件系统中。

优选的，所述更新策略为：当收集到新的CPU寄存器中的数据时，再次执行存储策略，对所述BMC的文件系统中的数据进行更新。

优选的，所述提示所述CPU寄存器中的数据收集完成的步骤进一步包括：将所述第一数据保存至所述BMC的文件系统后，所述BMC创建数据收集成功的日志，记为第一日志；

通过网络协议发送所述第一日志至客户端，通过所述第一日志提示所述CPU寄存器中的数据收集完成。

优选的，所述根据所述判断结果提示所述CPU寄存器中的数据收集完成或失败的步骤进一步包括：

若所述BMC接收到所述BIOS发送的CPU寄存器中的数据，则执行所述存储策略，将所述第一数据保存至所述BMC的文件系统后，所述BMC创建数据收集成功的日志，记为第二日志，并通过网络协议发送所述第二日志至客户端，通过所述第二日志提示所述CPU寄存器中的数据收集完成。

优选的，所述根据所述判断结果提示所述CPU寄存器中的数据收集完成或失败的步骤进一步还包括：

若所述BMC未接收到所述BIOS发送的CPU寄存器中的数据，则所述BMC创建数据收集失败的日志，记为第三日志，并通过网络协议发送所述第三日志至客户端，通过所述第三日志提示所述CPU寄存器中的数据收集失败。

优选的，所述链路为PECI链路，所述网络协议包括SNMP和Syslog，所述CPU寄存器包括MSR寄存器、CSR寄存器和PCIe寄存器。

本发明还提供一种收集CPU寄存器数据的系统，包括：CPU、BMC、CPLD、延时模块、判断模块、收集模块和提示模块；

所述CPU通过PECI链路与所述BMC连接；

所述CPLD用于监控服务器，当所述服务器发生宕机时，所述CPLD获取所述服务器的宕机信息并发出宕机信号；

所述BMC与所述CPLD连接，用于获取所述CPLD中的宕机信号；

所述BMC用于执行存储策略和更新策略；

所述延时模块用于设定并执行延时策略；

所述判断模块用于判断所述BMC与所述CPU连接的所述PECI链路是否正常，用于判断所述BMC是否接收到所述CPU寄存器中的数据；

所述收集模块用于通过PECI收集CPU寄存器中的数据，用于通过BIOS收集CPU寄存器中的数据；

所述提示模块用于提示所述CPU寄存器中的数据收集完成或者失败。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的一种收集CPU寄存器数据的方法的步骤。

本发明的有益效果是：

1、本发明所述的一种收集CPU寄存器数据的方法，可以实现在系统发生宕机故障时，BMC根据PECI链路是否正常，通过PECI收集CPU寄存器数据或者通过BIOS收集寄存器数据，并将收集结果远程发送给客户，大大降低服务器的维护成本，提高产品竞争力；

2、本发明所述的一种收集CPU寄存器数据的系统，BMC定期轮询CPLD中的宕机信号，根据宕机信号进行收集CPU寄存器数据的操作，并且根据PECI链路正常或者异常情况进行不同的操作，从而避免了BMC和CPU之间的PECI链路在服务器宕机时无法保证连通性的问题，提高了收集CPU寄存器的稳定性；

3、本发明所述的一种计算机可读存储介质，将收集到的CPU寄存器中的数据按照时间顺序进行排序，将最新的数据进行收集，确保了数据的准确性，并且当PECI链路正常时，会实时更新BMC文件系统的系统，确保了数据的时效性，当数据收集成功时，通过对应的日志文件提示客户收集成功，当数据收集失败时，通过对应的日志文件提示客户收集失败，保证了处理服务器宕机的效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1所述的一种收集CPU寄存器数据的方法示意图；

图2是本发明实施例2所述的一种收集CPU寄存器数据的系统架构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在本发明的描述中

Whitley平台是intel平台代号；

XDP(eXpressDataPath)是Linux内核网络栈的最底层，存在于RX路径上，允许在网络设备驱动内部网络堆栈中数据来源最早的地方进行数据包处理，在特定模式下可以在操作系统分配内存(skb)之前就已经完成处理；

PECI(Platform Environment Control Interface)接口规格由Intel提出，作为新一代的数字接口，它是存在于处理器与其他芯片或系统稳定性监控设备之间的专用单线型总线(single wire bus)，PECI使用循环冗余校验(Cyclical Redundancy Check；CRC)位元组来进行错误检验。

SNMP是专门设计用于在IP网络管理网络节点(服务器、工作站、路由器、交换机及HUBS等)的一种标准协议，它是一种应用层协议。

Syslog常被称为系统日志或系统记录，是一种用来在互联网协议(TCP/IP)的网上中传递记录档消息的标准。这个词汇常用来指涉实际的syslog协议，或者那些提交syslog消息的应用程序或数据库。

Redfish可扩展平台管理API(The Redfish Scalable Platforms ManagementAPI)是一种新的规范，其使用RESTful接口语义来访问定义在模型格式中的数据，用于执行带外系统管理(out of band systems management)。其适用于大规模的服务器，从独立的服务器到机架式和刀片式的服务器环境，而且也同样适用于大规模的云环境。

S1状态也称为POS(Power on Suspend)，除了通过CPU时钟控制器将CPU关闭之外，其他的部件仍然正常工作，功耗一般在30W以下。

软重启是软件机制，通过信号或者其它方式通知各个模块设备需要重启，模块需要自己实现模块的重启，从而实现设备的重启。

IPMI(Intelligent Platform Management Interface)智能平台管理接口是一种Intel架构的企业系统的周边设备所采用的工业标准。

IPMI能够横跨不同的操作系统、固件和硬件平台，可以智能的监视、控制和自动汇报大量服务器的运作状况，以降低服务器系统成本。

BIOS(Basic Input Output System)是基本输入输出系统。

CPLD是复杂可编程逻辑器件。

MSR是CPU的一组64位寄存器，可以分别通过RDMSR和WRMSR两条指令进行读和写的操作。

CSR(Control and Status Register)是控制状态暂存器。

实施例1

本发明实施例提供一种收集CPU寄存器数据的方法，请参阅图1，包括以下步骤：

S100，主板上的CPLD进行监控服务器中的状态，设置延时策略，当服务器发生宕机时CPLD获取服务器宕机信息并发出宕机信号；

延时策略为：当服务器宕机时，若PECI链路正常，在服务器的BIOS中设置S1状态的延时时间为第二时间，在本实施例中第二时间为8分钟，延时时间为服务器在发生宕机时不立即进入S1状态的时间，预留8分钟的时间通过BMC读取CPU寄存器中的数据，否则宕机时服务器会立即进入S1状态，CPU寄存器中的数据将无法读取；

因为服务宕机时，BIOS已经关机，无法进行读取CPU寄存器中的状态，所以通过BMC通过PECI进行读取CPU寄存器中的数据；

S200，BMC在第一时间内轮询CPLD中的服务器宕机信号，从而获取到服务器的状态；当BMC检测到宕机信号时，判断BMC与服务器中的CPU连接的PECI链路是否正常，其中PECI是BMC和服务器CPU之间的一条物理链路，可以通过PECI进行读取并收集CPU中寄存器数据；

S300，若PECI链路正常，则BMC通过PECI进行收集CPU寄存器中的数据，BMC执行存储策略，存储策略为：将PECI收集的CPU寄存器中的数据按照时间顺序进行升序或者降序排序，若进行升序排序时，找到最后排名后三位，将排名后三位收集的CPU寄存器中的数据保存在BMC的文件系统中，若进行降序排序找到排名前三，将排名前三位收集的CPU寄存器中的数据保存在BMC的文件系统中；

BMC执行更新策略，更新策略为：当PECI进行收集到新的CPU寄存器中的数据时，进行实时更新BMC的文件系统中的数据，保证BMC的文件系统中存储的是最近三次收集的CPU寄存器中的数据。

S301，当BMC的文件系统收集三次CPU寄存器中的数据后，BMC创建数据收集成功的日志，记为第一日志，并通过SNMP或者Syslog发送第一日志到客户端；客户端配有SNMP服务器或者Syslog服务器，通过第一日志提醒客户CPU寄存器中的数据收集完成。

S302，客户可以进行下载BMC的文件系统中存储的CPU寄存器中的数据，具体方式为通过WEB登录到BMC页面进行下载，或者通过Redfish接口下载。

S400，若PECI链路异常，则服务器进行软重启，进行软重启可以保留CPU寄存器中的数据，否则CPU寄存器中的数据将会清空，在服务器进行软重启的过程中，通过BIOS收集CPU寄存器中的数据，BMC执行存储策略，存储策略为将收集到的CPU寄存器中的数据通过IPMI命令发送至BMC，BMC判断是否接收到BIOS发送的CPU寄存器中的数据，若接收到，则将收集到的CPU寄存器中的数据按照时间顺序进行升序或者降序排序，若进行升序排序时，找到最后排名后三位，将排名后三位收集的CPU寄存器中的数据保存在BMC的文件系统中，若进行降序排序找到排名前三，将排名前三位收集的CPU寄存器中的数据保存在BMC的文件系统中，

S401，当BMC的文件系统收集CPU寄存器中的数据完成后，BMC创建数据收集成功的日志，记为第二日志，并通过SNMP或者Syslog发送第二日志到客户端；客户端配有SNMP服务器或者Syslog服务器，通过第二日志提醒客户CPU寄存器中的数据收集完成。

S402，客户可以进行下载BMC的文件系统中，具体方式为通过WEB登录到BMC页面进行下载，或者通过Redfish接口下载。

S403，如果服务器进行软重启后BMC未接收到BIOS发送的CPU寄存器中的数据，则BMC创建数据收集失败的日志，记为第三日志，通过SNMP或者Syslog发送第三日志到客户端，通过第三日志提醒客户CPU寄存器中的数据收集失败。

需要说明的是，在本实施例中，CPU寄存器包括MSR寄存器、CSR寄存器和PCIe寄存器。

需要说明的是，在本实施例中，BMC可以通过PECI进行收集服务器中各种数据，不止限于CPU寄存器中的数据。

实施例2

本发明实施例还提供一种收集CPU寄存器数据的系统，请参阅图2，包括：CPU、BMC、CPLD、延时模块、判断模块、收集模块和提示模块；

所述CPU通过PECI链路与所述BMC连接；

所述BMC与所述CPLD连接，用于获取所述CPLD中的宕机信号；

所述BMC用于执行存储策略和更新策略；

所述延时模块用于设定延时策略；

收集模块用于通过PECI收集CPU寄存器中的数据，用于通过BIOS收集CPU寄存器中的数据；

基于与前述实施例中方法同样的发明构思，本说明书实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述公开的一种收集CPU寄存器数据的方法的步骤。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种收集CPU寄存器数据的方法，应用于服务器，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种收集CPU寄存器数据的方法，其特征在于：所述延时策略为：在所述服务器的BIOS中设置S1状态的延时时间为第二时间，当所述服务器宕机时，不进入S1状态，若所述链路正常，在所述第二时间内，所述BMC通过PECI收集所述CPU寄存器中的数据，经过所述第二时间后进入S1状态。

3.根据权利要求1所述的一种收集CPU寄存器数据的方法，其特征在于：所述存储策略为：将收集的CPU寄存器中的数据按照时间顺序进行降序排序，找到排名前三位收集CPU寄存器中的数据，记为第一数据，将第一数据保存至所述BMC的文件系统中。

4.根据权利要求3所述的一种收集CPU寄存器数据的方法，其特征在于：所述更新策略为：当收集到新的CPU寄存器中的数据时，再次执行存储策略，对所述BMC的文件系统中的数据进行更新。

5.根据权利要求4所述的一种收集CPU寄存器数据的方法，其特征在于：所述提示所述CPU寄存器中的数据收集完成的步骤进一步包括：将所述第一数据保存至所述BMC的文件系统后，所述BMC创建数据收集成功的日志，记为第一日志；

6.根据权利要求3所述的一种收集CPU寄存器数据的方法，其特征在于：所述根据所述判断结果提示所述CPU寄存器中的数据收集完成或失败的步骤进一步包括：

7.根据权利要求6所述的一种收集CPU寄存器数据的方法，其特征在于：所述根据所述判断结果提示所述CPU寄存器中的数据收集完成或失败的步骤进一步还包括：

8.根据权利要求4-7任一项所述的一种收集CPU寄存器数据的方法，其特征在于：所述链路为PECI链路，所述网络协议包括SNMP和Syslog，所述CPU寄存器包括MSR寄存器、CSR寄存器和PCIe寄存器。

9.一种收集CPU寄存器数据的系统，其特征在于，包括：CPU、BMC、CPLD、延时模块、判断模块、收集模块和提示模块；

所述CPU通过PECI链路与所述BMC连接；

所述BMC与所述CPLD连接，用于获取所述CPLD中的宕机信号；

所述BMC用于执行存储策略和更新策略；

所述延时模块用于设定并执行延时策略；

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-8任一项所述的一种收集CPU寄存器数据的方法的步骤。