CN116737396A

CN116737396A - 服务器可维护性配置方法、装置、电子设备和存储介质

Info

Publication number: CN116737396A
Application number: CN202311019304.8A
Authority: CN
Inventors: 贾帅帅; 李道童; 艾山彬; 陈衍东; 李盛新
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-09-12
Anticipated expiration: 2043-08-14
Also published as: CN116737396B

Abstract

本发明实施例提供了一种服务器可维护性配置方法、装置、电子设备和存储介质，涉及计算机系统及存储技术领域；包括：响应于服务器的正常启动运行，计算中央处理器的第一利用率；响应于所述服务器的宕机重启，确定故障部件；计算所述中央处理器的第二利用率；基于所述第一利用率和所述第二利用率，确定业务迁移状态；依据所述业务迁移状态，切换服务器配置模式；在所述服务器配置模式中，隔离所述故障部件。通过本发明实施例通过判断客户的业务是否迁移，根据是否业务迁移来启动不同服务器配置模式，可以降低服务器的宕机率。

Description

服务器可维护性配置方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机系统及存储技术领域，特别是涉及一种服务器可维护性配置方法、一种服务器可维护性配置装置、一种电子设备和一种存储介质。

背景技术

服务器故障可划分为宕机类故障和非宕机类故障两大类。宕机类故障主要体现在开机过程宕机及运行时宕机两部分。服务器对故障部件有一定的修复功能，即使可能服务器出现硬件故障也可以使用必要的手段使其正常运行下去。这个过程即服务器的RAS（Reliability Availability Serviceability，可靠性可用性可服务性）功能。RAS修复在部分场景下默认配置一种参数继续运行直至运维人员进行故障排除，而是会影响服务器的性能和运行效率，可能进一步导致服务器宕机。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种服务器可维护性配置方法、一种服务器可维护性配置装置、一种电子设备和一种存储介质。

为了解决上述问题，在本发明的第一个方面，本发明实施例公开了一种服务器可维护性配置方法，包括：

响应于服务器的正常启动运行，计算中央处理器的第一利用率；

响应于所述服务器的宕机重启，确定故障部件；

计算所述中央处理器的第二利用率；

基于所述第一利用率和所述第二利用率，确定业务迁移状态；

依据所述业务迁移状态，切换服务器配置模式；

在所述服务器配置模式中，隔离所述故障部件。

进一步地，所述计算中央处理器的第一利用率的步骤包括：

读取所述中央处理器的功耗数据和单位热量数据；

依据所述功耗数据和所述单位热量数据，确定所述第一利用率。

进一步地，所述依据所述功耗数据和所述单位热量数据，确定所述第一利用率的步骤包括：

计算所述功耗数据与所述单位热量数据的第一比值；

确定所述第一比值为所述第一利用率。

进一步地，所述响应于所述服务器的宕机重启，确定故障部件的步骤包括：

响应于所述服务器的宕机重启，读取错误信息；

确定所述错误信息对应的部件为所述故障部件。

进一步地，在所述读取错误信息的步骤之前，所述响应于所述服务器的宕机重启，确定故障部件的步骤还包括：

等待预设时长，进入所述服务器的基本输入输出系统。

进一步地，所述计算所述中央处理器的第二利用率的步骤包括：

读取所述中央处理器的功耗数据和单位热量数据；

依据所述功耗数据和所述单位热量数据，确定所述第二利用率。

计算所述功耗数据与所述单位热量数据的第二比值；

确定所述第二比值为所述第二利用率。

进一步地，所述基于所述第一利用率和所述第二利用率，确定业务迁移状态的步骤包括：

基于所述第一利用率和所述第二利用率，计算业务波动值；

基于所述业务波动值确定业务迁移状态。

进一步地，所述基于所述第一利用率和所述第二利用率，计算业务波动值的步骤包括：

计算所述第一利用率和所述第二利用率的差值；

计算所述差值与所述第一利用率的第三比值；

确定所述第三比值为所述业务波动值。

进一步地，所述基于所述业务波动值确定业务迁移状态的步骤包括：

判断所述业务波动值是否小于预设业务波动阈值；

响应于所述业务波动值小于预设业务波动阈值，确定所述业务迁移状态为业务未迁移；

响应于所述业务波动值不小于预设业务波动阈值，确定所述业务迁移状态为业务已迁移。

进一步地，所述服务器配置模式包括可靠性模式和可运行性模式，所述可靠性模式的运行可靠性大于所述可运行性模式的运行可靠性，所述可运行性模式的运行效率大于所述可靠性模式的运行效率；所述依据所述业务迁移状态，切换服务器配置模式的步骤包括：

响应于所述业务迁移状态为所述业务未迁移，切换所述服务器配置模式为所述可靠性模式；

响应于所述业务迁移状态为所述业务已迁移，切换所述服务器配置模式为所述可运行性模式。

进一步地，所述响应于所述业务迁移状态为所述业务未迁移，切换所述服务器配置模式为所述可靠性模式的步骤包括：

响应于所述业务迁移状态为所述业务未迁移，设置所述服务器的模式标记为所述可靠性模式对应的可靠性标记，控制所述服务器重启；

在所述服务器重启期间，基于所述可靠性标记，配置所述服务器的基本输入输出系统选项，以切换为所述可靠性模式。

进一步地，所述响应于所述业务迁移状态为所述业务已迁移，切换所述服务器配置模式为所述可运行性模式的步骤包括：

响应于所述业务迁移状态为所述业务已迁移，设置所述服务器的模式标记为所述可运行性模式对应的可运行性标记，控制所述服务器重启；

在所述服务器重启期间，基于所述可运行性标记，配置所述服务器的基本输入输出系统选项，以切换为所述可运行性模式。

进一步地，所述服务器配置模式还包括平衡模式和自动模式，所述平衡模式的运行效率位于所述可靠性模式和所述可运行性模式之间，所述平衡模式的运行可靠性位于所述可靠性模式和所述可运行性模式之间；所述自动模式复用所述可运行性模式和所述可靠性模式和所述平衡模式中的一个。

进一步地，所述方法还包括：

响应于服务器的正常启动运行，显示模式选择页面。

进一步地，所述方法还包括：

接收针对所述模式选择页面的选择操作，选择所述可靠性模式、所述可运行性模式、所述平衡模式和所述自动模式中的一个为当前配置模式。

进一步地，所述预设业务波动阈值为30%。

在本发明的第一个方面，本发明实施例公开了一种服务器可维护性配置装置，包括：

第一计算模块，用于响应于服务器的正常启动运行，计算中央处理器的第一利用率；

重启模块，用于响应于所述服务器的宕机重启，确定故障部件；

第二计算模块，用于计算所述中央处理器的第二利用率；

业务迁移判断模块，用于基于所述第一利用率和所述第二利用率，确定业务迁移状态；

切换模块，用于依据所述业务迁移状态，切换服务器配置模式；

隔离模块，用于在所述服务器配置模式中，隔离所述故障部件。

在本发明的第三个方面，本发明实施例公开了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的服务器可维护性配置方法的步骤。

在本发明的第四个方面，本发明实施例公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的服务器可维护性配置方法的步骤。

本发明实施例包括以下优点：

本发明实施例通过响应于服务器的正常启动运行，计算中央处理器的第一利用率；响应于所述服务器的宕机重启，确定故障部件；计算所述中央处理器的第二利用率；基于所述第一利用率和所述第二利用率，确定业务迁移状态；依据所述业务迁移状态，切换服务器配置模式；在所述服务器配置模式中，隔离所述故障部件。通过在正常启动和重启时的中央处理器的利用率判断客户的业务是否迁移，根据是否业务迁移来启动不同服务器配置模式，以使服务器可以自动切换配置模型，降低服务器的宕机率。

附图说明

图1是本发明的一种服务器可维护性配置方法实施例的步骤流程图；

图2是本发明的另一种服务器可维护性配置方法实施例的步骤流程图；

图3是本发明的一种服务器可维护性配置方法示例的框架示意图；

图4是本发明的一种服务器可维护性配置装置实施例的结构框图；

图5是本发明实施例提供的一种电子设备的结构框图；

图6是本发明实施例提供的一种存储介质的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种服务器可维护性配置方法实施例的步骤流程图，所述服务器可维护性配置方法具体可以包括如下步骤：

步骤101，响应于服务器的正常启动运行，计算中央处理器的第一利用率；

在服务器的正常启动运行，进行业务处理时，计算中央处理的此时的中央处理器利用率，即为第一利用率。

步骤102，响应于所述服务器的宕机重启，确定故障部件；

当服务器因为PCIE（peripheral component interconnect express，高速串行计算机扩展总线）设备的fatal（致命错误）或者内存的UCE，或者CPU（中央处理器）的IERR（内部错误）宕机而重启时，可以基于读取日志的方式确定自身的故障部件。

步骤103，计算所述中央处理器的第二利用率；

在宕机重启，重新对业务进行处理时，可以计算中央处理的此时的中央处理器利用率，即为第二利用率。

步骤104，基于所述第一利用率和所述第二利用率，确定业务迁移状态；

根据第一利用率和第二利用率之间的关系，确定服务在重启期间，其业务是否被用户迁移至其他服务器，确定业务迁移状态。

步骤105，依据所述业务迁移状态，切换服务器配置模式；

依据业务迁移状态，确定服务器需要切换的服务器配置模式，将服务器切换至服务器配置模式下，以避免下次的宕机。

步骤106，在所述服务器配置模式中，隔离所述故障部件。

服务器运行在切换的服务器配置模式中，对故障部件进行隔离，直至运维人员进行处理，已在此期间可以服务器可以继续对业务进行处理。

参照图2，示出了本发明的另一种服务器可维护性配置方法实施例的步骤流程图，所述服务器可维护性配置方法具体可以包括如下步骤：

步骤201，响应于服务器的正常启动运行，显示模式选择页面；所述服务器配置有可靠性模式、可运行性模式、平衡模式和自动模式；

在本发明实施例中，服务器可配置有可靠性模式、可运行性模式、平衡模式和自动模式。其中，所述可靠性模式的运行可靠性大于所述可运行性模式的运行可靠性，所述可运行性模式的运行效率大于所述可靠性模式的运行效率；所述平衡模式的运行效率位于所述可靠性模式和所述可运行性模式之间，所述平衡模式的运行可靠性位于所述可靠性模式和所述可运行性模式之间；所述自动模式复用所述可运行性模式和所述可靠性模式和所述平衡模式中的一个。可靠性模式可以筛选有物理硬件故障的部件，而不去做软件修复，一旦发现硬件故障则允许系统宕机下线。可运行性模式可以使用各种手段修复或者预测可能的CE（Correctable Error，可修正错误）做到提前修复，延长服务器的运行时间，同时上报故障部件给BMC ，提示用户尽快替换故障部件。平衡模式中可以筛选有物理硬件故障的部件，针对故障部件评估可采用的修复策略，如修复策略不影响系统性能或者极小的影响系统性能则选择修复，若采用的修复策略极度影响系统性能则选择宕机下线。对于可靠性模式、可运行性模式、平衡模式基于RAS技术的处理，可以根据相关人员基于实际情况进行预先配置，本发明实施例对此不作具体限定。

可靠性模式、可运行性模式和平衡模式均包含多种RAS技术。RAS技术中，Reliability（可靠性）指的是系统必须尽可能的可靠，不会意外的崩溃，重启甚至导致系统物理损坏，这意味着一个具有可靠性的系统必须能够对于某些小的错误能够做到自修复，对于无法自修复的错误也尽可能进行隔离，保障系统其余部分正常运转。Availability（可用性）指的是系统必须能够确保尽可能长时间工作而不下线，即使系统出现一些小的问题也不会影响整个系统的正常运行，在某些情况下甚至可以进行 Hot Plug 的操作，替换有问题的组件，从而严格的确保系统的宕机时间在一定范围内。Serviceability 指的是系统能够提供便利的诊断功能，如系统日志，动态检测等手段方便管理人员进行系统诊断和维护操作，从而及早的发现错误并且修复错误。RAS 作为一个整体，其作用在于确保整个系统尽可能长期可靠的运行而不下线，并且具备足够强大的容错机制。

可靠性模式包含的RSA技术包括但不限于关闭DDDC（Double Device DataCorrection，双设备数据校正）机制、关闭内存Patrol Scrubbing（内存名）、关闭内存PostPackage Repair（内存名）、关闭故障内存隔离启动技术、关闭错误包容默认模式、关闭故障核心隔离启动、打开Viral Mode（病毒模式）、打开Error Log Cloaking（错误日志隐藏）、关闭EDP（Enhanced Downstream Port Containment，数据接口）、关闭PCIe数据包容模式、关闭PCIe链路重新训练和恢复。

可运行性模式包含的RSA技术包括但不限于打开ADDDC（Adaptive Double DRAMDevice Correction 自适应双设备数据校正）机制、打开DDDC机制、打开内存PatrolScrubbing、打开内存Post Package Repair、打开故障内存隔离启动技术阈值设定：3000、漏斗设定：1个/min（分钟）屏蔽OS上报/打开内存ADDDC修复技术、关闭Viral Mode、关闭Error Log Cloaking、打开EDPC（Enhanced Downstream Port Containment）、打开PCle数据包容模式、打开PCle链路重新训练和恢复。

平衡模式包含的RSA技术包括但不限于关闭ADDDC机制/打开PCLS机制、关闭DDDC机制、打开内存Patrol Scrubbing、打开内存Post Package Repair、打开故障内存隔离启动技术、打开Viral Mode、关闭Error Log Cloaking、关闭EDPC（Enhanced DownstreamPort Containment）、打开PCle数据包容模式、打开PCle链路重新训练和恢复。

在服务器正常启动开机运行时，可以启动显示模式选择页面，用户可以在模式选择页面中选择对服务器配置的配置模式。

步骤202，接收针对所述模式选择页面的选择操作，选择所述可靠性模式、所述可运行性模式、所述平衡模式和所述自动模式中的一个为当前配置模式；

根据用户的针对模式选择页面的选择操作，确定用户选择的配置模式，从可靠性模式、可运行性模式、平衡模式和自动模式中确定其中一个配置模式为当前配置模式，以对服务器进行配置。

步骤203，计算中央处理器的第一利用率；

可以在服务器运行一定时间，如10分钟后，可以计算出中央处理器的此时的利用率，即第一利用率。

在本发明的一可选实施例中，所述计算中央处理器的第一利用率的步骤包括：读取所述中央处理器的功耗数据和单位热量数据；依据所述功耗数据和所述单位热量数据，确定所述第一利用率。

服务器中的BMC可读取中央处理器的功耗数据和中央处理器的单位热量数据（TDP，Thermal Design Power）。具体地，可以中央处理器的南桥集成电路的功耗数据和单位热量数据为准。然后依据功耗数据和单位热量数据之间的大小关系，确定第一利用率。单位热量数据为TDP热功耗，是处理器热量释放的指标。

具体地，所述依据所述功耗数据和所述单位热量数据，确定所述第一利用率的步骤包括：计算所述功耗数据与所述单位热量数据的第一比值；确定所述第一比值为所述第一利用率。

在实际应用中，可以计算功耗数据与所述单位热量数据的比值，即功耗数据/单位热量数据的比值，为第一比值；可将该第一比值作为第一利用率。

步骤204，响应于所述服务器的宕机重启，确定故障部件；

在服务器运行期间，可能会因各种错误而宕机重启。在服务器的宕机重启时，可以从服务器中确定出故障部件。

在本发明的一可选实施例中，所述响应于所述服务器的宕机重启，确定故障部件的步骤包括：响应于所述服务器的宕机重启，读取错误信息；确定所述错误信息对应的部件为所述故障部件。

响应于服务器的宕机重启，可以从日志等运行数据中读取错误信息；基于错误信息，确定对应的发生故障的部件，将该部件确定为故障部件。

在本发明的一可选实施例中，在所述读取错误信息的步骤之前，所述响应于所述服务器的宕机重启，确定故障部件的步骤还包括：等待预设时长，进入所述服务器的基本输入输出系统。

当错误信息是为UCE故障或者IERR故障时，可以等待预设时长，延时进入服务器的基本输入输出系统，以执行确定所述错误信息对应的部件为所述故障部件的步骤。其中预设时长可以基于本领域技术人员确定，本发明实施例对此不作限定。如在本发明的一示例中，预设时长为10分钟。

步骤205，计算所述中央处理器的第二利用率；

在服务器宕机重启后，还可以计算出中央处理器的第二利用率，以确定重启后的业务处理情况。

在本发明的一可选实施例中，所述计算所述中央处理器的第二利用率的步骤包括：读取所述中央处理器的功耗数据和单位热量数据；依据所述功耗数据和所述单位热量数据，确定所述第二利用率。

与第一利用率相似地，BMC可读取宕机重启后的中央处理器的功耗数据和中央处理器的单位热量数据，然后依据功耗数据和单位热量数据之间的大小关系，确定第二利用率。

具体地，所述依据所述功耗数据和所述单位热量数据，确定所述第一利用率的步骤包括：计算所述功耗数据与所述单位热量数据的第二比值；确定所述第二比值为所述第二利用率。

在实际应用中，可以计算功耗数据与所述单位热量数据的比值，即功耗数据/单位热量数据的比值，为第二比值；可将该第二比值作为第二利用率。

步骤206，基于所述第一利用率和所述第二利用率，确定业务迁移状态；

可以基于第一利用率和第二利用率的关系，确定该服务器是否发生业务迁移，将业务迁移至其他服务器。

在本发明的一可选实施例中，所述基于所述第一利用率和所述第二利用率，确定业务迁移状态的步骤包括：基于所述第一利用率和所述第二利用率，计算业务波动值；基于所述业务波动值确定业务迁移状态。

在本发明实施例中，可以计算第一利用率和第二利用率，基于第一利用率和第二利用率确定宕机重启前后，业务的波动情况，计算出业务波动值。基于业务波动值的大小确定具体的业务迁移状态。

具体地，所述基于所述第一利用率和所述第二利用率，计算业务波动值的步骤包括：计算所述第一利用率和所述第二利用率的差值；计算所述差值与所述第一利用率的第三比值；确定所述第三比值为所述业务波动值。

在本发明实施例中，可以计算第一利用率和第二利用率的差值，为统一一迁入与迁出均为业务迁移；第一利用率和第二利用率的差值可以采用绝对值进行后续的计算。即可以采用第一利用率减去第二利用率的差值的绝对值，也可以是采用第二利用率减去第一利用率的差值的绝对值进入后续的计算。然后计算差值与第一利用率的比值，即第三比值，通过该比值可以确定迁入或迁出的业务，相对宕机重启前的变化量。将第三比值为业务波动值。

具体地，所述基于所述业务波动值确定业务迁移状态的步骤包括：判断所述业务波动值是否小于预设业务波动阈值；响应于所述业务波动值小于预设业务波动阈值，确定所述业务迁移状态为业务未迁移；响应于所述业务波动值不小于预设业务波动阈值，确定所述业务迁移状态为业务已迁移。

在实际应用中，可以判断业务波动值是否小于预设业务波动阈值确定，具体地业务迁移状态，其中，预设业务波动阈值可以根据实际情况进行确定本发明实施例对此不做限定。在本发明的一优选示例中，预设业务波动阈值可以为30%。

当业务波动值小于预设业务波动阈值时，响应于业务波动值小于预设业务波动阈值，即重启前后服务器中的业务处理量稳定；可以确定业务迁移状态为业务未迁移。

当业务波动值不小于预设业务波动阈值时，响应于业务波动值不小于预设业务波动阈值，即重启前后服务器中的业务处理量变化较大；可以确定业务迁移状态为业务未迁移。

步骤207，依据所述业务迁移状态，切换服务器配置模式；

根据不同的业务迁移状态，可以将服务器的当前配置模式切换成业务迁移状态对应的服务器配置模式。

在本发明的一可选实施例中，所述依据所述业务迁移状态，切换服务器配置模式的步骤包括：响应于所述业务迁移状态为所述业务未迁移，切换所述服务器配置模式为所述可靠性模式；响应于所述业务迁移状态为所述业务已迁移，切换所述服务器配置模式为所述可运行性模式。

在本发明实施例中，当业务迁移状态为业务未迁移时，响应于业务迁移状态为业务未迁移，切换所述服务器配置模式为可靠性模式，对服务器基于可靠性模式进行配置运行。当业务迁移状态为业务已迁移时，响应于业务迁移状态为业务已迁移，切换所述服务器配置模式为可运行性模式，对服务器基于可运行性模式进行配置运行。

具体地，所述响应于所述业务迁移状态为所述业务未迁移，切换所述服务器配置模式为所述可靠性模式的步骤包括：响应于所述业务迁移状态为所述业务未迁移，设置所述服务器的模式标记为所述可靠性模式对应的可靠性标记，控制所述服务器重启；在所述服务器重启期间，基于所述可靠性标记，配置所述服务器的基本输入输出系统选项，以切换为所述可靠性模式。

在实际应用中，可以响应于业务迁移状态为业务未迁移，将服务器的模式标记设置为可靠性模式对应的可靠性标记，并对可靠性标记进行存储，然后控制服务器重启以进行参数重新配置。在服务器重启期间，依据可靠性标记，将服务器的基本输入输出系统选项中与可靠性模式关联的部分都进行重新配置，切换为可靠性模式对应的参数。

具体地，所述响应于所述业务迁移状态为所述业务已迁移，切换所述服务器配置模式为所述可运行性模式的步骤包括：响应于所述业务迁移状态为所述业务已迁移，设置所述服务器的模式标记为所述可运行性模式对应的可运行性标记，控制所述服务器重启；在所述服务器重启期间，基于所述可运行性标记，配置所述服务器的基本输入输出系统选项，以切换为所述可运行性模式。

在实际应用中，可以响应于业务迁移状态为业务已迁移，将服务器的模式标记设置为可运行性模式对应的可运行性标记，并对可运行性标记进行存储，然后控制服务器重启以进行参数重新配置。在服务器重启期间，依据可运行性标记，将服务器的基本输入输出系统选项中与可运行性模式关联的部分都进行重新配置，切换为可运行性模式对应的参数。

其中，可运行性标记和可靠性标记可以根据实际情况设置标记的形式，本发明实施例不作具体限定。

步骤208，在所述服务器配置模式中，隔离所述故障部件。

在切换至新的服务器配置模式后，在服务器配置模式下运行，隔离发生故障的故障部件，以确定服务器的正常运行。

本发明实施例通过响应于服务器的正常启动运行，显示模式选择页面；所述服务器配置有可靠性模式、可运行性模式、平衡模式和自动模式；接收针对所述模式选择页面的选择操作，选择所述可靠性模式、所述可运行性模式、所述平衡模式和所述自动模式中的一个为当前配置模式；计算中央处理器的第一利用率；响应于所述服务器的宕机重启，确定故障部件；计算所述中央处理器的第二利用率；基于所述第一利用率和所述第二利用率，确定业务迁移状态；依据所述业务迁移状态，切换服务器配置模式；在所述服务器配置模式中，隔离所述故障部件。通过在正常启动和重启时的中央处理器的利用率判断客户的业务是否迁移，根据是否业务迁移来启动不同服务器配置模式，以使服务器可以自动切换配置模型，降低服务器的宕机率。

为了使本领域技术人员能够更好地理解本发明实施例，下面通过一个例子对本发明实施例加以说明：

1）首先在BIOS （基本输入输出系统）交互界面 BIOS setup（选项）下增加RASMode（模式）选项，可选项有 Sensitive mode（可运行性模式）、 recovery mode（可靠模式性）、 balanced mode（平衡模式）、 auto mode（自动模式）。

2）根据用户选择操作选择其中一个模式。如选择自动模式。

参照图3，示出了本发明的一种服务器可维护性配置方法示例的示意图，所述服务器可维护性配置方法具体可以包括如下步骤：

1、服务器正常运行客户业务阶段，由BMC通过PCIE读取CPU的利用率记录利用率为A。

2、首次客户故障机器宕机，宕机以后服务器会自动重启（重启机制可能是PCIE设备的fatal或者内存的UCE，或者CPU的IERR等）。

3、BMC重启检测重启原因是由于UCE故障或者IERR故障。则进入系统10分钟所有，再次读取cpu利用率B。

4、计算是否判定切换何种模式的公式是：数值对比|A-B|÷A<0.3的真假。认为客户业务运行中有百分之30的波动是正常的，如果业务被迁移出去，cpu利用率是很低的，远远低于30%的CPU利用率波动。

5、数值对比|A-B|÷A<0.3为真，则表明客户业务未从故障机器迁移出去，则设置RAS mode flag为recovery mode flag。接着由BMC主动重启服务器

6、数值对比|A-B|÷A<0.3为假，则表明客户业务已经从故障机器迁移出去，则设置RAS mode flag（标记）为Sensitive mode flag。接着由BMC主动重启服务器

7、服务器重启阶段由BIOS读取BMC（基板控制器）保存的RAS mode flag，然后按照不同的RAS mode配置相应的BIOS参数。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种服务器可维护性配置装置实施例的结构框图，所述服务器可维护性配置装置具体可以包括如下模块：

第一计算模块401，用于响应于服务器的正常启动运行，计算中央处理器的第一利用率；

重启模块402，用于响应于所述服务器的宕机重启，确定故障部件；

第二计算模块403，用于计算所述中央处理器的第二利用率；

业务迁移判断模块404，用于基于所述第一利用率和所述第二利用率，确定业务迁移状态；

切换模块405，用于依据所述业务迁移状态，切换服务器配置模式；

隔离模块406，用于在所述服务器配置模式中，隔离所述故障部件。

在本发明的一可选实施例中，所述第一计算模块401包括：

第一读取子模块，用于读取所述中央处理器的功耗数据和单位热量数据；

第一利用率确定子模块，用于依据所述功耗数据和所述单位热量数据，确定所述第一利用率。

在本发明的一可选实施例中，所述第一利用率确定子模块包括：

第一计算单元，用于计算所述功耗数据与所述单位热量数据的第一比值；

第一利用率确定单元，用于确定所述第一比值为所述第一利用率。

在本发明的一可选实施例中，所述重启模块402包括：

重启子模块，用于响应于所述服务器的宕机重启，读取错误信息；

故障确定子模块，用于确定所述错误信息对应的部件为所述故障部件。

在本发明的一可选实施例中，所述重启模块402还包括：

等待子模块，用于等待预设时长，进入所述服务器的基本输入输出系统。

在本发明的一可选实施例中，所述第二计算模块403包括：

第二读取子模块，用于读取所述中央处理器的功耗数据和单位热量数据；

第二利用率确定子模块，用于依据所述功耗数据和所述单位热量数据，确定所述第二利用率。

在本发明的一可选实施例中，所述第二利用率确定子模块包括：

第二计算单元，用于计算所述功耗数据与所述单位热量数据的第二比值；

第二利用率确定单元，用于确定所述第二比值为所述第二利用率。

在本发明的一可选实施例中，所述业务迁移判断模块404包括：

业务波动值确定子模块，用于基于所述第一利用率和所述第二利用率，计算业务波动值；

业务迁移状态确定子模块，用于基于所述业务波动值确定业务迁移状态。

在本发明的一可选实施例中，所述业务波动值确定子模块包括：

差值计算单元，用于计算所述第一利用率和所述第二利用率的差值；

第三比值计算单元，用于计算所述差值与所述第一利用率的第三比值；

业务波动值确定对应，用于确定所述第三比值为所述业务波动值。

在本发明的一可选实施例中，所述业务迁移状态确定子模块包括：

判断单元，用于判断所述业务波动值是否小于预设业务波动阈值；

第一迁移确定单元，用于响应于所述业务波动值小于预设业务波动阈值，确定所述业务迁移状态为业务未迁移；

第二迁移确定单元，用于响应于所述业务波动值不小于预设业务波动阈值，确定所述业务迁移状态为业务已迁移。

在本发明的一可选实施例中，所述服务器配置模式包括可靠性模式和可运行性模式，所述可靠性模式的运行可靠性大于所述可运行性模式的运行可靠性，所述可运行性模式的运行效率大于所述可靠性模式的运行效率；所述切换模块405包括：

第一切换子模块，用于响应于所述业务迁移状态为所述业务未迁移，切换所述服务器配置模式为所述可靠性模式；

第二切换子模块，用于响应于所述业务迁移状态为所述业务已迁移，切换所述服务器配置模式为所述可运行性模式。

在本发明的一可选实施例中，所述第一切换子模块包括：

第一标记单元，用于响应于所述业务迁移状态为所述业务未迁移，设置所述服务器的模式标记为所述可靠性模式对应的可靠性标记，控制所述服务器重启；

第一配置单元，用于在所述服务器重启期间，基于所述可靠性标记，配置所述服务器的基本输入输出系统选项，以切换为所述可靠性模式。

在本发明的一可选实施例中，所述第二切换子模块包括：

第二标记单元，用于响应于所述业务迁移状态为所述业务已迁移，设置所述服务器的模式标记为所述可运行性模式对应的可运行性标记，控制所述服务器重启；

第二配置单元，用于在所述服务器重启期间，基于所述可运行性标记，配置所述服务器的基本输入输出系统选项，以切换为所述可运行性模式。

在本发明的一可选实施例中，所述服务器配置模式还包括平衡模式和自动模式，所述平衡模式的运行效率位于所述可靠性模式和所述可运行性模式之间，所述平衡模式的运行可靠性位于所述可靠性模式和所述可运行性模式之间；所述自动模式复用所述可运行性模式和所述可靠性模式和所述平衡模式中的一个。

在本发明的一可选实施例中，所述装置还包括：

显示模块，用于响应于服务器的正常启动运行，显示模式选择页面。

在本发明的一可选实施例中，所述装置还包括：

选择模块，用于接收针对所述模式选择页面的选择操作，选择所述可靠性模式、所述可运行性模式、所述平衡模式和所述自动模式中的一个为当前配置模式。

在本发明的一可选实施例中，所述预设业务波动阈值为30%。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图5，本发明实施例还提供了一种电子设备，包括：

处理器501和存储介质502，所述存储介质502存储有所述处理器501可执行的计算机程序，当电子设备运行时，所述处理器501执行所述计算机程序，以执行如本发明实施例任一项所述的服务器可维护性配置方法。所述服务器可维护性配置方法包括：

响应于所述服务器的宕机重启，确定故障部件；

计算所述中央处理器的第二利用率；

依据所述业务迁移状态，切换服务器配置模式；

在所述服务器配置模式中，隔离所述故障部件。

进一步地，所述计算中央处理器的第一利用率的步骤包括：

读取所述中央处理器的功耗数据和单位热量数据；

计算所述功耗数据与所述单位热量数据的第一比值；

确定所述第一比值为所述第一利用率。

响应于所述服务器的宕机重启，读取错误信息；

确定所述错误信息对应的部件为所述故障部件。

等待预设时长，进入所述服务器的基本输入输出系统。

读取所述中央处理器的功耗数据和单位热量数据；

计算所述功耗数据与所述单位热量数据的第二比值；

确定所述第二比值为所述第二利用率。

基于所述第一利用率和所述第二利用率，计算业务波动值；

基于所述业务波动值确定业务迁移状态。

计算所述第一利用率和所述第二利用率的差值；

计算所述差值与所述第一利用率的第三比值；

确定所述第三比值为所述业务波动值。

判断所述业务波动值是否小于预设业务波动阈值；

进一步地，所述方法还包括：

响应于服务器的正常启动运行，显示模式选择页面。

进一步地，所述方法还包括：

进一步地，所述预设业务波动阈值为30%。

其中，存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

参照图6，本发明实施例还提供了一种计算机可读存储介质601，所述存储介质601上存储有计算机程序，所述计算机程序被处理器运行时执行如本发明实施例任一项所述的服务器可维护性配置方法。所述服务器可维护性配置方法包括：

响应于所述服务器的宕机重启，确定故障部件；

计算所述中央处理器的第二利用率；

依据所述业务迁移状态，切换服务器配置模式；

在所述服务器配置模式中，隔离所述故障部件。

进一步地，所述计算中央处理器的第一利用率的步骤包括：

读取所述中央处理器的功耗数据和单位热量数据；

计算所述功耗数据与所述单位热量数据的第一比值；

确定所述第一比值为所述第一利用率。

响应于所述服务器的宕机重启，读取错误信息；

确定所述错误信息对应的部件为所述故障部件。

等待预设时长，进入所述服务器的基本输入输出系统。

读取所述中央处理器的功耗数据和单位热量数据；

计算所述功耗数据与所述单位热量数据的第二比值；

确定所述第二比值为所述第二利用率。

基于所述第一利用率和所述第二利用率，计算业务波动值；

基于所述业务波动值确定业务迁移状态。

计算所述第一利用率和所述第二利用率的差值；

计算所述差值与所述第一利用率的第三比值；

确定所述第三比值为所述业务波动值。

判断所述业务波动值是否小于预设业务波动阈值；

进一步地，所述方法还包括：

响应于服务器的正常启动运行，显示模式选择页面。

进一步地，所述方法还包括：

进一步地，所述预设业务波动阈值为30%。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的服务器可维护性配置方法、装置、电子设备和存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种服务器可维护性配置方法，其特征在于，包括：

响应于所述服务器的宕机重启，确定故障部件；

计算所述中央处理器的第二利用率；

依据所述业务迁移状态，切换服务器配置模式；

在所述服务器配置模式中，隔离所述故障部件。

2.根据权利要求1所述的方法，其特征在于，所述计算中央处理器的第一利用率的步骤包括：

读取所述中央处理器的功耗数据和单位热量数据；

3.根据权利要求2所述的方法，其特征在于，所述依据所述功耗数据和所述单位热量数据，确定所述第一利用率的步骤包括：

计算所述功耗数据与所述单位热量数据的第一比值；

确定所述第一比值为所述第一利用率。

4.根据权利要求1所述的方法，其特征在于，所述响应于所述服务器的宕机重启，确定故障部件的步骤包括：

响应于所述服务器的宕机重启，读取错误信息；

确定所述错误信息对应的部件为所述故障部件。

5.根据权利要求4所述的方法，其特征在于，在所述读取错误信息的步骤之前，所述响应于所述服务器的宕机重启，确定故障部件的步骤还包括：

等待预设时长，进入所述服务器的基本输入输出系统。

6.根据权利要求1所述的方法，其特征在于，所述计算所述中央处理器的第二利用率的步骤包括：

读取所述中央处理器的功耗数据和单位热量数据；

7.根据权利要求6所述的方法，其特征在于，所述依据所述功耗数据和所述单位热量数据，确定所述第二利用率的步骤包括：

计算所述功耗数据与所述单位热量数据的第二比值；

确定所述第二比值为所述第二利用率。

8.根据权利要求1所述的方法，其特征在于，所述基于所述第一利用率和所述第二利用率，确定业务迁移状态的步骤包括：

基于所述第一利用率和所述第二利用率，计算业务波动值；

基于所述业务波动值确定业务迁移状态。

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一利用率和所述第二利用率，计算业务波动值的步骤包括：

计算所述第一利用率和所述第二利用率的差值；

计算所述差值与所述第一利用率的第三比值；

确定所述第三比值为所述业务波动值。

10.根据权利要求8所述的方法，其特征在于，所述基于所述业务波动值确定业务迁移状态的步骤包括：

判断所述业务波动值是否小于预设业务波动阈值；

11.根据权利要求10所述的方法，其特征在于，所述服务器配置模式包括可靠性模式和可运行性模式，所述可靠性模式的运行可靠性大于所述可运行性模式的运行可靠性，所述可运行性模式的运行效率大于所述可靠性模式的运行效率；所述依据所述业务迁移状态，切换服务器配置模式的步骤包括：

12.根据权利要求11所述的方法，其特征在于，所述响应于所述业务迁移状态为所述业务未迁移，切换所述服务器配置模式为所述可靠性模式的步骤包括：

13.根据权利要求11所述的方法，其特征在于，所述响应于所述业务迁移状态为所述业务已迁移，切换所述服务器配置模式为所述可运行性模式的步骤包括：

14.根据权利要求11所述的方法，其特征在于，所述服务器配置模式还包括平衡模式和自动模式，所述平衡模式的运行效率位于所述可靠性模式和所述可运行性模式之间，所述平衡模式的运行可靠性位于所述可靠性模式和所述可运行性模式之间；所述自动模式复用所述可运行性模式和所述可靠性模式和所述平衡模式中的一个。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

响应于服务器的正常启动运行，显示模式选择页面。

16.根据权利要求15所述的方法，其特征在于，所述方法还包括：

17.根据权利要求10所述的方法，其特征在于，所述预设业务波动阈值为30%。

18.一种服务器可维护性配置装置，其特征在于，包括：

第二计算模块，用于计算所述中央处理器的第二利用率；

19.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至17中任一项所述的服务器可维护性配置方法的步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至17中任一项所述的服务器可维护性配置方法的步骤。