CN111897686A

CN111897686A - 服务器集群硬盘故障处理方法、装置、电子设备及存储介质

Info

Publication number: CN111897686A
Application number: CN202010779444.5A
Authority: CN
Inventors: 牛犇; 刘抗抗; 陈海超; 林哲伟; 赵亮; 严勇; 刘裕勋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-11-06

Abstract

本发明提供了一种服务器集群硬盘故障处理方法、装置、电子设备、存储介质，方法包括：获取服务器集群硬盘的故障警示信息；调用服务器集群硬盘的运行数据；基于服务器集群硬盘的运行数据，确定服务器集群硬盘故障的类型；当服务器集群硬盘故障的类型为不可用告警时，触发相匹配的无硬件故障检测进程，获取无硬件故障检测进程的检测结果；基于无硬件故障检测进程的检测结果，对服务器集群硬盘故障进行修复，本申请能够自动化的对服务器集群硬盘的故障类型进行检测，对服务器集群硬盘故障进行修复，减少服务器集群硬盘的更换率，降低服务器集群系统的运行成本并提升对服务器集群硬盘维护的效率，保证服务器集群用户的数据安全，提高用户的使用体验。

Description

服务器集群硬盘故障处理方法、装置、电子设备及存储介质

技术领域

本发明涉及硬盘系统故障检测处理技术，尤其涉及服务器集群硬盘故障处理方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的不断发展，服务器集群可以提供安全可靠的弹性计算服务，还可以提供不同的实例类型来满足用户特定的使用场景。这些服务器集群的实例类型由CPU、内存、存储和网络组成不同的组合，但是当服务器集群的硬盘发生掉线、只读等问题后，用户部署在该服务器上的子机业务也会受到影响。相关技术将将发生异常的硬盘替换的方式来进行故障恢复，不但增加了故障处理的等待时间，也会造成数据丢失的风险，影响用户使用。

发明内容

有鉴于此，本发明实施例提供一种服务器集群硬盘故障处理方法、装置、电子设备及存储介质，能够自动化的对服务器集群硬盘的故障类型进行检测，对服务器集群硬盘故障进行修复，减少服务器集群硬盘的更换率，降低服务器集群系统的运行成本并提升对服务器集群硬盘维护的效率，保证服务器集群用户的数据安全，提高用户的使用体验。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种服务器集群硬盘故障处理方法，所述方法包括：

获取服务器集群硬盘的故障警示信息；

响应于所述服务器集群硬盘的故障警示信息，调用所述服务器集群硬盘的运行数据；

基于所述服务器集群硬盘的运行数据，确定所述服务器集群硬盘故障的类型；

当所述服务器集群硬盘故障的类型为不可用告警时，触发相匹配的无硬件故障检测进程，获取所述无硬件故障检测进程的检测结果；

基于所述无硬件故障检测进程的检测结果，对所述服务器集群硬盘故障进行修复。

本发明实施例还提供了一种服务器集群硬盘故障处理装置，所述装置包括：

信息传输模块，用于获取服务器集群硬盘的故障警示信息；

信息处理模块，用于响应于所述服务器集群硬盘的故障警示信息，调用所述服务器集群硬盘的运行数据；

所述信息处理模块，用于基于所述服务器集群硬盘的运行数据，确定所述服务器集群硬盘故障的类型；

所述信息处理模块，用于当所述服务器集群硬盘故障的类型为不可用告警时，触发相匹配的无硬件故障检测进程，获取所述无硬件故障检测进程的检测结果；

所述信息处理模块，用于基于所述无硬件故障检测进程的检测结果，对所述服务器集群硬盘故障进行修复。

上述方案中，

所述信息传输模块，用于监听所述服务器集群硬盘的运行参数，当所述服务器集群硬盘的运行参数达到警示阈值时，触发所述服务器集群硬盘的故障警示信息；

所述信息传输模块，用于接收服务器集群用户报警信息，并基于所述服务器集群用户的参数，确定与所述服务器集群用户相匹配的服务器集群硬盘，触发所述服务器集群硬盘的故障警示信息。

上述方案中，

所述信息处理模块，用于确定所述服务器集群硬盘的硬盘属性参数，其中，所述硬盘属性参数包括：硬盘型号、服务器型号、上架时间、版本号以及硬盘的分区标识；

所述信息处理模块，用于基于所述服务器集群硬盘的硬盘属性参数，调取相应存储介质中所保存的所述服务器集群硬盘的运行数据；

所述信息处理模块，用于根据所述服务器集群硬盘的硬盘属性参数，获取对应的故障类型特征；

所述信息处理模块，用于通过对所述服务器集群硬盘的运行数据与所述故障类型特征的交叉比对，确定所述服务器集群硬盘故障的类型，其中，所述服务器集群的故障类型包括：不可用告警和失效告警。

上述方案中，

所述信息处理模块，用于当所述服务器集群硬盘故障的类型为不可用告警时，通过触发相匹配的无硬件故障检测进程，获取与所述服务器集群硬盘相匹配的检测参数；

所述信息处理模块，用于对所述服务器集群硬盘相匹配的检测参数进行多维度处理，确定所述服务器集群硬盘在不同维度中的检测结果；

所述信息处理模块，用于对所述服务器集群硬盘在不同维度中的检测结果进行融合处理，确定所述无硬件故障检测进程的检测结果。

上述方案中，

所述信息处理模块，用于基于所述服务器集群硬盘对应的硬盘保护参数，确定相应的参数健康检测结果；

所述信息处理模块，用于通过对所述硬盘保护参数的标准化处理，确定所述硬盘保护参数的分布特征检测结果；

所述信息处理模块，用于通过对所述硬盘保护参数的动态斜率处理，确定所述硬盘保护参数的恶化趋势结果；

所述信息处理模块，用于通过对所述硬盘保护参数的预测函数处理，确定所述硬盘保护参数对应的故障概率结果；

所述信息处理模块，用于对所述参数健康检测结果、分布特征检测结果、恶化趋势结果以及故障概率结果进行融合处理，确定所述服务器集群硬盘在不同维度中的检测结果。

上述方案中，

所述信息处理模块，用于基于所述无硬件故障检测进程的检测结果，确定所述服务器集群硬盘相匹配的故障修复方式；

所述信息处理模块，用于基于与所述服务器集群硬盘相匹配的故障修复方式，触发对应的故障修复进程，并通过所述故障修复进程对所述服务器集群硬盘故障进行修复。

上述方案中，

所述信息处理模块，用于当确定所述服务器集群硬盘支持电压复位功能时，确定与所述服务器集群硬盘相匹配的故障修复方式为电压复位进程；

所述信息处理模块，用于通过所述电压复位进程，触发携带电压复位指令的引导代码，并通过所述引导代码中的电压复位指令，调整所述服务器集群硬盘的加载电压实现对所述服务器集群硬盘故障进行修复。

上述方案中，

所述信息处理模块，用于当确定所述服务器集群硬盘支持硬盘背板存储器上下电功能时，确定与所述服务器集群硬盘相匹配的故障修复方式为背板槽位拔插进程；

所述信息处理模块，用于通过所述背板槽位拔插进程，触发携带背板槽位拔插指令的引导代码；

所述信息处理模块，用于通过所述引导代码中的背板槽位拔插指令，对所述服务器集群硬盘背板存储器的槽位进行拔插，以实现通过调整所述服务器集群硬盘背板存储器的槽位位置对所述服务器集群硬盘故障进行修复。

上述方案中，

所述信息处理模块，用于对所述服务器集群硬盘的盘符位置进行检测；

所述信息处理模块，用于当确定所述服务器集群硬盘的盘符出现位置偏移时，确定所述服务器集群硬盘的槽位、盘符以及挂载点的初始配置信息；

所述信息处理模块，用于基于所述服务器集群硬盘的槽位、盘符以及挂载点的初始配置信息，对出现位置偏移的盘符进行调整。

上述方案中，所述装置还包括：

显示模块，用于显示用户界面，所述用户界面中包括以固定人称视角对所述服务器集群运行环境进行观察的人称视角画面，其中，所述用户界面中包括不同的服务器集群标识；

所述用户界面中还包括编辑检测组件和修复组件；

所述显示模块，用于通过所述检测组件，监听所述服务器集群硬盘的运行参数，并在所述服务器集群硬盘的运行参数达到警示阈值时，触发所述服务器集群硬盘的故障警示信息；

基于修复组件，基于所述无硬件故障检测进程的检测结果，对所述服务器集群硬盘故障进行修复。

上述方案中，

所述显示模块，用于通过所述检测组件，调用目标服务器集群硬盘的接口；

所述显示模块，用于基于所述修复组件，通过所述目标服务器集群硬盘的接口，发送查询指令，以实现通过所述修复组件所述目标服务器集群硬盘的槽位、盘符以及挂载点的初始配置信息。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的服务器集群硬盘故障处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前序的服务器集群硬盘故障处理方法。

本发明实施例具有以下有益效果：

本发明通过获取服务器集群硬盘的故障警示信息；响应于所述服务器集群硬盘的故障警示信息，调用所述服务器集群硬盘的运行数据；基于所述服务器集群硬盘的运行数据，确定所述服务器集群硬盘故障的类型；当所述服务器集群硬盘故障的类型为不可用告警时，触发相匹配的无硬件故障检测进程，获取所述无硬件故障检测进程的检测结果；基于所述无硬件故障检测进程的检测结果，对所述服务器集群硬盘故障进行修复，由此，够自动化的对服务器集群硬盘的故障类型进行检测，对服务器集群硬盘故障进行修复，减少服务器集群硬盘的更换率，降低服务器集群系统的运行成本并提升对服务器集群硬盘维护的效率，保证服务器集群用户的数据安全，提高用户的使用体验。

附图说明

图1为本发明实施例提供的服务器集群硬盘故障处理方法的使用场景示意图；

图2为本发明实施例提供的电子设备的组成结构示意图；

图3为本发明实施例提供的服务器集群硬盘故障处理方法一个可选的流程示意图；

图4为本发明实施例提供的服务器集群硬盘故障处理方法一个可选的流程示意图；

图5为本发明实施例中电压复位的工作示意图；

图6为本发明实施例中一个可选的硬盘修复示意图；

图7为本发明实施例中一个可选的硬盘修复示意图；

图8为本申请所提供的服务器集群硬盘故障处理方法的前端显示示意图；

图9为本申请所提供的服务器集群硬盘故障处理方法的过程示意图；

图10为本申请所提供的服务器集群硬盘故障处理方法的前端显示示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)终端，包括但不限于：普通终端、专用终端，其中所述普通终端与发送通道保持长连接和/或短连接，所述专用终端与所述发送通道保持长连接。

3)客户端，终端中实现特定功能的载体，例如移动客户端(APP)是移动终端中特定功能的载体，例如执行报表制作的功能或者进行报表展示的功能。

4)固件：是运行在芯片内部的代码，用于实现服务器集群硬盘故障检测的二进制代码。

5)小程序(Mini Program)，是一种基于面向前端的语言(例如JavaScript)开发的、在超文本标记语言(HTML，Hyper Text Markup Language)页面中实现服务的程序，由客户端(例如浏览器或内嵌浏览器核心的任意客户端)经由网络(如互联网)下载、并在客户端的浏览器环境中解释和执行的软件，节省在客户端中安装的步骤。例如，在社交网络客户端中可以下载、运行用于实现机票购买、报表制作、数据展示等各种服务的小程序。

6)运行环境，用于解释和执行代码的引擎，例如对于小程序的运行环境而言，可以是iOS平台的JavaScript Core、安卓平台的X5 JS Core。

7)引导加载程序代码：又称引导加载程序(Bootloader)、引导模式、启动加载等，指一种在芯片启动时运行的代码，通常用于初始化硬件环境，加载固件运行的代码，通常它不需要被更新。

8)组件(Component)，是小程序的视图的功能模块，也称为前端组件，页面中的按钮、标题、表格、侧边栏、内容和页脚等，组件包括模块化的代码以便于在小程序的不同的页面中重复使用。

9)服务器集群(Server cluste)，指将很多服务器集中起来一起进行同一种服务，在客户端看来就像是只有一个服务器。服务器集群可以利用多个计算机进行并行计算从而获得很高的计算速度，也可以用多个计算机做备份，从而使得任何一个机器坏了整个系统还是能正常运行。在本申请中所提供的服务器集群硬盘故障处理方法中，可以应用于云服务器使用场景和分布式服务器使用场景，实现对不同使用场景中的服务器硬盘的状态检测与故障修复，具体来说，云服务器(CVM Cloud Virtual Machine)是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务。其管理方式比传统的单一物理服务器更简单高效。用户无需提前购买硬件，即可迅速创建或释放任意多台云服务器供用户的业务进程使用，并存储云服务器用户的数据。而分布式服务器使用环境中用户的数据和程序可以不位于一个服务器上，而是分散到多个服务器中，同样的，分布式服务器的使用环境也需要配置大量的硬盘，也需要通过本申请所提供的服务器集群硬盘故障处理方法实现服务器硬盘的状态检测与故障修复。

图1为本发明实施例提供的服务器集群硬盘故障处理方法的使用场景示意图，参见图1，随着计算机技术的不断发展，服务器集群中的云服务器(Cloud Virtual Machine，CVM)可以提供安全可靠的弹性计算服务，还可以提供不同的实例类型来满足用户特定的使用场景。终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中，所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的云服务器200中获取不同的信息，并可以在服务器集群中部署不同的业务。终端通过网络300连接云服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。服务器集群所提供的这些实例类型由CPU、内存、存储和网络组成不同的组合，并将用户的业务数据存储在服务器集群的硬盘中，但是当服务器集群的硬盘发生掉线、只读等问题后，用户部署在该服务器上的子机业务也会受到影响。在本发明所提供的实施例中云服务器200中所运行的服务器集群应用可以是在不同编程语言的软件代码环境中所编写的，代码对象可以是不同类型的代码实体。例如，在C语言的软件代码中，一个代码对象可以是一个函数。在JAVA语言的软件代码中，一个代码对象可以是一个类，IOS端OC语言中可以是一段目标代码。在C++语言的软件代码中，一个代码对象可以是一个类或一个函数以执行来自于不同终端的处理指令。其中本申请中不再对名服务器集群的编译环境的来源进行区分。

下面对本发明实施例的服务器集群硬盘故障处理装置的结构做详细说明，服务器集群硬盘故障处理装置可以各种形式来实施，如带有服务器集群硬盘故障处理装置处理功能的专用终端，也可以为设置有服务器集群硬盘故障处理装置处理功能的服务器，例如前序图1中的云服务器200。图2为本发明实施例提供的服务器集群硬盘故障处理装置的组成结构示意图，可以理解，图2仅仅示出了服务器集群硬盘故障处理装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的电子设备包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。服务器集群硬盘故障处理装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的服务器集群硬盘故障处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的服务器集群硬盘故障处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的服务器集群硬盘故障处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的服务器集群硬盘故障处理装置采用软硬件结合实施的示例，本发明实施例所提供的服务器集群硬盘故障处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的服务器集群硬盘故障处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的服务器集群硬盘故障处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的服务器集群硬盘故障处理方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持服务器集群硬盘故障处理装置的操作。这些数据的示例包括：用于在服务器集群硬盘故障处理装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从服务器集群硬盘故障处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的服务器集群硬盘故障处理装置可以采用软件方式实现，图2示出了存储在存储器202中的服务器集群硬盘故障处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括服务器集群硬盘故障处理装置，服务器集群硬盘故障处理装置中包括以下的软件模块信息传输模块2081和信息处理模块2082。当服务器集群硬盘故障处理装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的服务器集群硬盘故障处理方法，其中，服务器集群硬盘故障处理装置中各个软件模块的功能，包括：

信息传输模块2081，用于获取服务器集群硬盘的故障警示信息；

信息处理模块2082，用于响应于所述服务器集群硬盘的故障警示信息，调用所述服务器集群硬盘的运行数据；

所述信息处理模块2082，用于基于所述服务器集群硬盘的运行数据，确定所述服务器集群硬盘故障的类型；

所述信息处理模块2082，用于当所述服务器集群硬盘故障的类型为不可用告警时，触发相匹配的无硬件故障检测进程，获取所述无硬件故障检测进程的检测结果；

所述信息处理模块2082，用于基于所述无硬件故障检测进程的检测结果，对所述服务器集群硬盘故障进行修复。

结合前序实施例所述，相关技术将发生异常的硬盘替换的方式来进行故障恢复，不但增加了故障处理的等待时间，也会造成数据丢失的风险，影响用户使用。现有的处理方式中，当出现服务器集群的硬盘故障时，数据中心会将发生异常的硬盘替换的方式来进行故障恢复，具体来说，当硬盘出现不可用的情况后(只读，掉线等)，可选的处理方式是进行硬盘更换。或者读取硬盘的个别SMART参数值来做二次判断是否进行硬盘更换或是重复利用。若可重复利用，通过重启服务器的方式重新接入原盘使用。其缺陷在于：1)若采取直接更换的方案，由于服务器集群系统中的硬盘NTF(no trouble found)的比例大约在30％～40％，特殊业务场景中可能甚至高达50％以上。人工更换这些硬盘，一方面造成了人力，物料等成本的大量增加，另一方面增加了不必要的故障处理的时长，突增了业务不可用风险。2)采取读取SMART参数来判断是否需要换盘，仅根据当前的SMART参数快照，不能精确地判断出硬盘是否健康，误判率较高，存在重复故障风险，进一步地，在非RAID卡的拓扑结构下(HBA/PCH直连)的服务器集群硬盘环境中，直接插拔硬盘可能会造成系统盘符漂移，一般做法需要重启服务器来恢复，工序多，耗时长，并且同时影响整台机器上其他硬盘上的业务，使得故障波及更多的服务器集群用户。

为了克服上述缺陷，参考图3，本申请提供一种服务器集群硬盘故障处理方法，为了克服上述缺陷，本发明实施例提供了一种服务器集群硬盘故障处理方法，参见图3，图3为本发明实施例提供的服务器集群硬盘故障处理方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行服务器集群硬盘故障处理装置的各种电子设备执行，例如可以是如带有服务器集群硬盘故障处理功能的手机或者平板电脑。其中，带有服务器集群硬盘故障处理装置的专用终端可以封装于图1所示的终端101-1中，以执行前序图2所示的服务器集群硬盘故障处理装置中的相应软件模块。下面针对图3示出的步骤进行说明。

步骤301：服务器集群硬盘故障处理装置获取服务器集群硬盘的故障警示信息。

在本发明的一些实施例中，获取服务器集群硬盘的故障警示信息，可以通过以下方式实现：

监听所述服务器集群硬盘的运行参数，当所述服务器集群硬盘的运行参数达到警示阈值时，触发所述服务器集群硬盘的故障警示信息；或者接收服务器集群用户报警信息，并基于所述服务器集群用户的参数，确定与所述服务器集群用户相匹配的服务器集群硬盘，触发所述服务器集群硬盘的故障警示信息。其中，其中，在本申请中所提供的服务器集群硬盘故障处理方法中，可以应用于云服务器使用场景和分布式服务器使用场景，实现对不同使用场景中的服务器硬盘的状态检测与故障修复，因此本发明实施例可结合云技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。对于用户使用服务器集群存储数据或者部署不同应用进程时，监听服务器集群硬盘的运行参数，可以及时的发现可能出现的服务器集群硬盘故障，避免由于出现失效警告的服务器集群硬盘故障造成的用户数据丢失。

步骤302：服务器集群硬盘故障处理装置响应于所述服务器集群硬盘的故障警示信息，调用所述服务器集群硬盘的运行数据。

步骤303：服务器集群硬盘故障处理装置基于所述服务器集群硬盘的运行数据，确定所述服务器集群硬盘故障的类型。

在本发明的一些实施例中，基于所述服务器集群硬盘的运行数据，确定所述服务器集群硬盘故障的类型，可以通过以下方式实现：

确定所述服务器集群硬盘的硬盘属性参数，其中，所述硬盘属性参数包括：硬盘型号、服务器型号、上架时间、版本号以及硬盘的分区标识；基于所述服务器集群硬盘的硬盘属性参数，调取相应存储介质中所保存的所述服务器集群硬盘的运行数据；根据所述服务器集群硬盘的硬盘属性参数，获取对应的故障类型特征；通过对所述服务器集群硬盘的运行数据与所述故障类型特征的交叉比对，确定所述服务器集群硬盘故障的类型，其中，所述服务器集群的故障类型包括：不可用告警和失效告警。其中，由于服务器集群系统中使用硬盘的数量众多，这些服务器集群硬盘可能来自不同的硬件厂商或者是服务器集群的运营商定制化的硬盘，因此通过硬盘型号、服务器型号、上架时间、版本号以及硬盘的分区标识与故障类型特征的交叉比对，可以更加准确地判断故障类型，避免由于硬盘设备的版本不一致造成的故障类型的错报与漏报。其中，不同类型服务器集群硬盘的门限值。是由硬盘厂商指定的可靠的属性值，通过特定公式计算而得。如果有一个属性值超出相应的阈值，就意味着硬盘将变得不可靠，保存在硬盘里的数据也很容易丢失。属性值的组成和大小对不同类型的硬盘是有差异的，所针对不同型号的硬盘设定不同的阈值，在对硬盘故障的处理的过程中需要分别交叉比对，以减少故障类型的错报概率。

步骤304：服务器集群硬盘故障处理装置当所述服务器集群硬盘故障的类型为不可用告警时，触发相匹配的无硬件故障检测进程，获取所述无硬件故障检测进程的检测结果。

在本发明的一些实施例中，当所述服务器集群硬盘故障的类型为不可用告警时，触发相匹配的无硬件故障检测进程，获取所述无硬件故障检测进程的检测结果；当所述服务器集群硬盘故障的类型为不可用告警时，通过触发相匹配的无硬件故障检测进程，获取与所述服务器集群硬盘相匹配的检测参数；对所述服务器集群硬盘相匹配的检测参数进行多维度处理，确定所述服务器集群硬盘在不同维度中的检测结果；对所述服务器集群硬盘在不同维度中的检测结果进行融合处理，确定所述无硬件故障检测进程的检测结果。具体来说，当判断故障类型为SMART(Self-Monitoring Analysis and Reporting Technology)预失效类告警，则触发硬盘更换流程，进行硬盘更换；当故障类型为只读、掉线类不可用告警时，触发故障检测进程。其中，smart是一种自动的硬盘状态检测与预警系统和规范。通过在硬盘硬件内的检测指令对硬盘的硬件如磁头、盘片、马达、电路的运行情况进行监控、记录并与厂商所设定的预设安全值进行比较，若监控情况将或已超出预设安全值的安全范围，就可以通过主机的监控硬件或软件自动向用户做出警告并进行轻微的自动修复，以提前保障硬盘数据的安全。采用二进制代码作为smart的基本指令，并规定写入标准的寄存器中，形成特定的smart信息表，以供正常检测和运行。smart指令分主指令(Command)和次指令(Subcommands)。主指令主要提供设备是否支持smart或忽略某一次指令特征的信息。而次指令则提供支持smart设备的检测信息。

继续参考图4，图4为本发明实施例提供的服务器集群硬盘故障处理方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行服务器集群硬盘故障处理装置的各种电子设备执行，例如可以是如带有服务器集群硬盘故障处理功能的手机或者平板电脑。其中，带有服务器集群硬盘故障处理装置的专用终端可以封装于图1所示的终端101-1中，以执行前序图2所示的服务器集群硬盘故障处理装置中的相应软件模块。下面针对图4示出的步骤进行说明。

步骤401：基于所述服务器集群硬盘对应的硬盘保护参数，确定相应的参数健康检测结果。

其中，不同于常规的SMART判断方式，本申请所提供的服务器集群硬盘故障检测方法可以从多种维度，通过不同的算法加权计算硬盘的健康度评分，具体包括：SMART参数欧氏距离算法(对重点SMART参数进行健康度量化)；SMART参数统计z-score算法(对硬盘参数在集群里的分布进行统计学量化)；SMART参数动态斜率算法(对参数的恶化趋势进行动态走势量化)；以及硬盘底层参数机器学习故障预测算法(通过和硬盘供应商合作开发硬盘内部反映健康度的参数，并进行大数据机器学习)。其中，加权计算硬盘的健康度评分参考公式1，在不同的服务器集群对应的使用环境中，运维人员可以根据业务类型和环境参数对公式1中的不同权重进行动态调整，其中，在云服务器使用环境中，权重的可选值为：a0＝0.2，a1＝0.2，a2＝0.3，a3＝0.3，公式1为：

步骤402：通过对所述硬盘保护参数的标准化处理，确定所述硬盘保护参数的分布特征检测结果。

步骤403：通过对所述硬盘保护参数的动态斜率处理，确定所述硬盘保护参数的恶化趋势结果。

步骤404：通过对所述硬盘保护参数的预测函数处理，确定所述硬盘保护参数对应的故障概率结果。

步骤405：对所述参数健康检测结果、分布特征检测结果、恶化趋势结果以及故障概率结果进行融合处理，确定所述服务器集群硬盘在不同维度中的检测结果。

其中，相比于相关技术中单一维度判断服务器集群硬盘故障，本申请可以根据相应的检测参数，确定服务器集群硬盘在不同维度中的检测结果，以实现对出现故障的服务器集群硬盘进行健康分数的计算，当故障硬盘分数大于等于预设的阈值，则判断服务器集群硬盘为NTF(no trouble found)状态(其中NTF状态指无硬件故障，电子器件未发现硬件故障，通常可重复使用，可重复使用)，对故障硬盘进行修复；若硬盘检测分数小于预设的阈值，则证明硬盘有硬件故障，进入换盘进程进行人工更换。其中，判断服务器集群硬盘参考公式2：

当通过图4所示的步骤确定无硬件故障检测进程的检测结果后可以继续执行步骤305。

步骤305：服务器集群硬盘故障处理装置基于所述无硬件故障检测进程的检测结果，对所述服务器集群硬盘故障进行修复。

在本发明的一些实施例中，基于所述无硬件故障检测进程的检测结果，对所述服务器集群硬盘故障进行修复，包括：

基于所述无硬件故障检测进程的检测结果，确定所述服务器集群硬盘相匹配的故障修复方式；基于与所述服务器集群硬盘相匹配的故障修复方式，触发对应的故障修复进程，并通过所述故障修复进程对所述服务器集群硬盘故障进行修复。其中，其中，当触发硬盘恢复进程时，可以首先判断该硬盘/服务器是否支持硬盘引脚(PIN3)电压复位功能，若支持则通过带外/带内下发命令对PIN3进行电压复位，使故障硬盘进行上下电；若不支持PIN3电压复位功能，则判断该服务器是否支持背板一次性编译器(efuse)独立槽位上下电功能，若支持则通过带外/带内下发命令对背板上的故障盘槽位进行上下电；若不支持则需要进行人工手动插拔修复。由此，可以节省人工更换故障硬盘的频率，减少服务器集群硬盘的硬件运行成本。

在本发明的一些实施例中，基于与所述服务器集群硬盘相匹配的故障修复方式，触发对应的故障修复进程，并通过所述故障修复进程对所述服务器集群硬盘故障进行修复，包括：

当确定所述服务器集群硬盘支持电压复位功能时，确定与所述服务器集群硬盘相匹配的故障修复方式为电压复位进程；通过所述电压复位进程，触发携带电压复位指令的引导代码，并通过所述引导代码中的电压复位指令，调整所述服务器集群硬盘的加载电压实现对所述服务器集群硬盘故障进行修复。其中，参考图5，图5为本发明实施例中电压复位的工作示意图，具体来说，传统的SATA/SAS硬盘第三个Pin脚(Pin3)为保留(reserved)Pin脚，本申请实施例中所使用的服务器集群的硬盘已经对Pin3新增power disable功能，即host系统可以通过对Pin3的控制来实现对该硬盘的上下电复位。进一步地还可以设计通过BMC来控制背板CPLD控制单个硬盘的PIN3电压，以实现硬盘独立上下电，由此，触发携带电压复位指令的引导代码，并通过引导代码中的电压复位指令，调整服务器集群硬盘的加载电压，减少了服务器集群硬盘的掉电几率，避免用户数据由于服务器集群硬盘掉电造成数据丢失。

在本发明的一些实施例中，所述基于与所述服务器集群硬盘相匹配的故障修复方式，触发对应的故障修复进程，并通过所述故障修复进程对所述服务器集群硬盘故障进行修复，包括：

当确定所述服务器集群硬盘支持硬盘背板存储器上下电功能时，确定与所述服务器集群硬盘相匹配的故障修复方式为背板槽位拔插进程；通过所述背板槽位拔插进程，触发携带背板槽位拔插指令的引导代码；通过所述引导代码中的背板槽位拔插指令，对所述服务器集群硬盘背板存储器的槽位进行拔插，以实现通过调整所述服务器集群硬盘背板存储器的槽位位置对所述服务器集群硬盘故障进行修复。其中，参考图6，图6为本发明实施例中一个可选的硬盘修复示意图，具体来说，通过带外/带内下发命令对背板上的故障盘槽位进行上下电，可以通过在背板上增加eFuse电路来实现对单个硬盘的独立上下电。BMC通过I2C控制背板CPLD对eFuse进行电压控制，从而实现硬盘的电平复位。由此，触发携带背板槽位拔插指令的引导代码；通过所述引导代码中的背板槽位拔插指令，对所述服务器集群硬盘背板存储器的槽位进行拔插，实现对服务器集群硬盘的修复。进一步地，需要说明的是，结合前序实施例，由于服务器集群系统的硬盘种类众多，当服务器集群硬盘不支持硬盘背板存储器上下电功能，同时也支持电压复位功能时，需要发出提示信息，告知运维人员服务器集群的硬盘位置标识，实现人工拔插。

在本发明的一些实施例中，所述方法还包括：

对所述服务器集群硬盘的盘符位置进行检测；当确定所述服务器集群硬盘的盘符出现位置偏移时，确定所述服务器集群硬盘的槽位、盘符以及挂载点的初始配置信息；基于所述服务器集群硬盘的槽位、盘符以及挂载点的初始配置信息，对出现位置偏移的盘符进行调整。其中，考图7，图7为本发明实施例中一个可选的硬盘修复示意图，具体来说，在服务器集群系统上架部署业务后，可以采集记录一份硬盘(槽位->盘符->挂载点)配置表，作为初始快照，具体来说槽位是硬盘物理位置信息，不随更换硬盘发生变化；盘符为内核按规则分配，可能随更换硬盘发生变化；挂载点为业务上层实际使用的mount目录，不允许发生变化。当内核检测到新增block设备后，监控系统获取新增设备的盘符及槽位信息，并与快照进行验证比对，当确认发生了盘符漂移时，触发进行硬盘修复。具体包括以下步骤：

步骤701：服务器集群系统开始部署业务信息。

步骤702：确定服务器槽位-盘符-挂载点初始快照。

步骤703：是否检测到新增block设备，如果是执行步骤706，否则执行步骤704。

步骤704：获取新block设备盘符/槽位信息。

步骤705：将获取的新block设备盘符/槽位信息与快照对比。

步骤706：判断信息是否一致，如果是结束执行，如果否，执行步骤707。

步骤707：漂移盘符挂载点匹配。

步骤708：对盘符重新挂载。

由此，根据配置快照里的槽位-盘符-挂载点对应关系，获取到漂移盘符对应的挂载点，将原挂载点卸载后进行自动挂载，若成功则修复流程结束；若不成功，则下发systemctl daemon-reload后重新挂载，若仍不成功，则通知人工处理，避免人工过早介入服务器集群故障硬盘修复，节省服务器集群的运行成本。

继续参考图8，下面以服务器集群为云服务器使用环境为例，通过在云服务器硬盘中存储金融交易数据为交替使用场景对本发明所提供的服务器集群硬盘故障处理方法进行说明，其中，用户通过图1所示的终端(包括终端10-1和终端10-2)通过网络300从相应的云服务器200中所获取所存储的金融资源例如基金、股票的交易数据。

其中，参见图8，图8为本申请所提供的服务器集群硬盘故障处理方法的前端显示示意图，其中终端(例如图1中的终端10-1)上设置有能够显示相应进行金融信息的软件的服务器集群客户端或服务器集群运行插件，用户通过相应的客户端可以将银行、证券、互金、P2P等提供支付、借贷、理财等金融业务的金融数据保存在云服务器中。云服务器的管理终端(例如图1中的终端10-2)通过图8所示的云服务器硬盘故障处理方法的前端显示示意图，对云服务器硬盘的运行状态进行检测，具体来说，显示用户界面，所述用户界面中包括以固定人称视角对所述云服务器运行环境进行观察的人称视角画面，其中，所述用户界面中包括不同的云服务器标识；所述用户界面中还包括编辑检测组件和修复组件；通过所述检测组件，监听所述云服务器硬盘的运行参数，并在所述云服务器硬盘的运行参数达到警示阈值时，触发所述云服务器硬盘的故障警示信息；基于修复组件，基于所述无硬件故障检测进程的检测结果，对所述云服务器硬盘故障进行修复。

其中，参考图9，图9为本申请所提供的服务器集群硬盘故障处理方法的过程示意图，具体包括：

步骤901：接收硬盘故障警示信息。

步骤902：判断故障类型。

步骤903：识别故障硬盘序列号。

步骤904：对故障硬盘的健康度综合测评。

步骤905：故障硬盘分数健康阈值是否达到阈值，如果是，执行步骤906，否者，执行人工更换硬盘。

步骤906：触发硬盘NTF在线恢复。

步骤907：判断是否支持PIN3 Reset，如果是，执行步骤908，否则，执行步骤909。

步骤908：通过硬盘PIN3 Reset进行修复。

步骤909：判断是否支持eFuseReset，如果是，执行步骤910，否则，执行步骤911。

步骤910：执行背板eFuse Reset进程。

步骤911：进行硬盘拔插。

步骤912：判断是否出现盘符漂移，如果是，执行步骤913，否则，执行步骤914。

步骤913：进行挂载点修复。

步骤914：判断故障硬盘是否修复，并在未修复时，执行步骤915。

步骤915：进行服务器硬盘更换。

进一步地，图10为本申请所提供的服务器集群硬盘故障处理方法的前端显示示意图，通过所述检测组件，调用目标云服务器硬盘的接口；基于所述修复组件，通过所述目标云服务器硬盘的接口，发送查询指令，以实现通过所述修复组件所述目标云服务器硬盘的槽位、盘符以及挂载点的初始配置信息。在实现本申请对云服务器硬盘故障的处理过程中，通过显示界面中的信息，可以监控云服务器硬盘的修复过程，避免人工过早介入云服务器故障硬盘修复，节省云服务器的运行成本，同时保证用户保存在云服务器中的金融数据安全，降低数据丢失风险。

有益技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种服务器集群硬盘故障处理方法，其特征在于，所述方法包括：

获取服务器集群硬盘的故障警示信息；

2.根据权利要求1所述的方法，其特征在于，所述获取服务器集群硬盘的故障警示信息，包括：

监听所述服务器集群硬盘的运行参数，当所述服务器集群硬盘的运行参数达到警示阈值时，触发所述服务器集群硬盘的故障警示信息；或者

接收服务器集群用户报警信息，并基于所述服务器集群用户的参数，确定与所述服务器集群用户相匹配的服务器集群硬盘，触发所述服务器集群硬盘的故障警示信息。

3.根据权利要求1所述的方法，其特征在于，所述基于所述服务器集群硬盘的运行数据，确定所述服务器集群硬盘故障的类型，包括：

确定所述服务器集群硬盘的硬盘属性参数，其中，所述硬盘属性参数包括：硬盘型号、服务器型号、上架时间、版本号以及硬盘的分区标识；

基于所述服务器集群硬盘的硬盘属性参数，调取相应存储介质中所保存的所述服务器集群硬盘的运行数据；

根据所述服务器集群硬盘的硬盘属性参数，获取对应的故障类型特征；

通过对所述服务器集群硬盘的运行数据与所述故障类型特征的交叉比对，确定所述服务器集群硬盘故障的类型，其中，所述服务器集群的故障类型包括：不可用告警和失效告警。

4.根据权利要求1所述的方法，其特征在于，所述当所述服务器集群硬盘故障的类型为不可用告警时，触发相匹配的无硬件故障检测进程，获取所述无硬件故障检测进程的检测结果；

当所述服务器集群硬盘故障的类型为不可用告警时，通过触发相匹配的无硬件故障检测进程，获取与所述服务器集群硬盘相匹配的检测参数；

对所述服务器集群硬盘相匹配的检测参数进行多维度处理，确定所述服务器集群硬盘在不同维度中的检测结果；

对所述服务器集群硬盘在不同维度中的检测结果进行融合处理，确定所述无硬件故障检测进程的检测结果。

5.根据权利要求4所述的方法，其特征在于，所述对所述服务器集群硬盘相匹配的检测参数进行多维度处理，确定所述服务器集群硬盘在不同维度中的检测结果，包括：

基于所述服务器集群硬盘对应的硬盘保护参数，确定相应的参数健康检测结果；

通过对所述硬盘保护参数的标准化处理，确定所述硬盘保护参数的分布特征检测结果；

通过对所述硬盘保护参数的动态斜率处理，确定所述硬盘保护参数的恶化趋势结果；

通过对所述硬盘保护参数的预测函数处理，确定所述硬盘保护参数对应的故障概率结果；

对所述参数健康检测结果、分布特征检测结果、恶化趋势结果以及故障概率结果进行融合处理，确定所述服务器集群硬盘在不同维度中的检测结果。

6.根据权利要求1所述的方法，其特征在于，所述基于所述无硬件故障检测进程的检测结果，对所述服务器集群硬盘故障进行修复，包括：

基于所述无硬件故障检测进程的检测结果，确定所述服务器集群硬盘相匹配的故障修复方式；

基于与所述服务器集群硬盘相匹配的故障修复方式，触发对应的故障修复进程，并通过所述故障修复进程对所述服务器集群硬盘故障进行修复。

7.根据权利要求6所述的方法，其特征在于，所述基于与所述服务器集群硬盘相匹配的故障修复方式，触发对应的故障修复进程，并通过所述故障修复进程对所述服务器集群硬盘故障进行修复，包括：

当确定所述服务器集群硬盘支持电压复位功能时，确定与所述服务器集群硬盘相匹配的故障修复方式为电压复位进程；

通过所述电压复位进程，触发携带电压复位指令的引导代码，并通过所述引导代码中的电压复位指令，调整所述服务器集群硬盘的加载电压实现对所述服务器集群硬盘故障进行修复。

8.根据权利要求6所述的方法，其特征在于，所述基于与所述服务器集群硬盘相匹配的故障修复方式，触发对应的故障修复进程，并通过所述故障修复进程对所述服务器集群硬盘故障进行修复，包括：

当确定所述服务器集群硬盘支持硬盘背板存储器上下电功能时，确定与所述服务器集群硬盘相匹配的故障修复方式为背板槽位拔插进程；

通过所述背板槽位拔插进程，触发携带背板槽位拔插指令的引导代码；

通过所述引导代码中的背板槽位拔插指令，对所述服务器集群硬盘背板存储器的槽位进行拔插，以实现通过调整所述服务器集群硬盘背板存储器的槽位位置对所述服务器集群硬盘故障进行修复。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述服务器集群硬盘的盘符位置进行检测；

当确定所述服务器集群硬盘的盘符出现位置偏移时，确定所述服务器集群硬盘的槽位、盘符以及挂载点的初始配置信息；

基于所述服务器集群硬盘的槽位、盘符以及挂载点的初始配置信息，对出现位置偏移的盘符进行调整。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

显示用户界面，所述用户界面中包括以固定人称视角对所述服务器集群运行环境进行观察的人称视角画面，其中，所述用户界面中包括不同的服务器集群标识；

所述用户界面中还包括编辑检测组件和修复组件；

通过所述检测组件，监听所述服务器集群硬盘的运行参数，并在所述服务器集群硬盘的运行参数达到警示阈值时，触发所述服务器集群硬盘的故障警示信息；

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

通过所述检测组件，调用目标服务器集群硬盘的接口；

基于所述修复组件，通过所述目标服务器集群硬盘的接口，发送查询指令，以实现通过所述修复组件所述目标服务器集群硬盘的槽位、盘符以及挂载点的初始配置信息。

12.一种服务器集群硬盘故障处理装置，其特征在于，所述装置包括：

信息传输模块，用于获取服务器集群硬盘的故障警示信息；

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

所述用户界面中还包括编辑检测组件和修复组件；

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至11任一项所述的服务器集群硬盘故障处理方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至11任一项所述的服务器集群硬盘故障处理方法。