CN116170284A

CN116170284A - 一种客户端的故障优化方法、系统、设备及介质

Info

Publication number: CN116170284A
Application number: CN202310180166.5A
Authority: CN
Inventors: 刘欢
Original assignee: Inspur Jinan data Technology Co ltd
Current assignee: Inspur Jinan data Technology Co ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-26

Abstract

本发明属于计算机领域，具体涉及一种客户端的故障优化方法、系统、设备及介质。其中方法包括：收集私有客户端和服务端的业务运行状态，并基于私有客户端和服务端的运行状态按照预定方式判断所述私有客户端和服务器是否出现异常；根据判断结果将异常端的异常状态信息和/或处理方式发送给非异常端。通过本发明实施例提出一种客户端的故障优化，不但能够通过存储系统完成对客户端状态的监测和信息显示，并且在某些故障场景，存储系统Monitor服务对比收集到的服务端与客户端的状态信息，完成异常的判定，并告知客户端完成对应恢复操作。本发明的技术方案有效提升了存储系统的可靠性。

Description

一种客户端的故障优化方法、系统、设备及介质

技术领域

本发明属于计算机领域，具体涉及一种客户端的故障优化方法、系统、设备及介质。

背景技术

在分布式存储系统中，有三种服务，一个是元数据服务，一个是数据服务，还有一个是Monitor服务。其中，元数据服务是用来管理文件元数据部分，数据服务是用来管理数据部分，而Monitor服务是用来管理整个分布式存储系统的健康状态，包括管理元数据服务以及数据服务。但是，存储系统Monitor服务并不感知客户端状态，尤其是当客户端与数据服务之间的链接出现异常(half-open)时。由于客户端与数据服务之间的链接是动态建立起来的，只有在有数据交互的时候，才去建立链接；在无数据需要交互时，链接是会断开的。在频繁的建立/断开过程中，由于某些异常，就会造成客户端检测到socket链接是正常的，但是在数据服务端却没有对应的socket链接，客户端访问存储系统卡死的情况。对于这种异常情况，由于存储系统未能监测到私有客户端的状态，就不会感知到客户端出现了异常。

因此，亟需一种有效的方案来解决上述问题。

发明内容

为解决上述问题，本发明提出一种客户端的故障优化方法，包括：

收集私有客户端和服务端的业务运行状态，并基于私有客户端和服务端的运行状态按照预定方式判断所述私有客户端和服务器是否出现异常；

根据判断结果将异常端的异常状态信息和/或处理方式发送给非异常端。

在本发明的一些实施方式中，所述基于私有客户端和服务端的运行状态按照预定方式判断所述私有客户端和服务器是否出现异常包括：

根据私有客户端和服务端建立的链接状态判断所述私有客户端和所述服务端的运行状态。

在本发明的一些实施方式中，收集私有客户端和服务端的业务运行状态包括：

将客户端挂载到分布式存储系统的监控服务，通过分布式存储系统的监控服务收集客户端上链接到分布式存储系统对应业务的服务端的链接状态并保存。

通过分布式存储系统的监控服务收集分布式存储系统上服务于所述客户端的对应业务的服务端与客户端建立的链接的状态并保存。

在本发明的一些实施方式中，方法还包括：

将分别在私有客户端和服务端收集到的属于同一业务的链接状态进行对比，并将对比结果为异常的私有客户端或服务端的异常状态发送给正常的私有客户端或服务端。

在本发明的一些实施方式中，基于私有客户端和服务端的运行状态按照预定方式判断所述私有客户端和服务器是否出现异常包括：

根据私有客户端和服务端运行时所占用的资源状态判断所述私有客户端和所述服务端的运行状态。

在本发明的一些实施方式中，根据私有客户端和服务端运行时所占用的资源状态判断所述私有客户端和所述服务端的运行状态包括：

获取私有客户端和服务端运行时所占用的资源，并将私有客户端和服务端运行时所占用的资源与预定阈值进行对比；

响应于私有客户端和服务端运行是所占用的资源超过所述预定阈值，则将所述私有客户端或服务端认定为异常；或

将多个私有客户端或多个服务端之间运行时所占用的资源进行对比，将超出所述占用的资源的平均值预定范围的客户端或服务端认定为异常。

本发明的另一方面还提出一种客户端的故障优化系统，包括：

异常分析模块，所述异常分析模块配置用于收集私有客户端和服务端的业务运行状态，并基于私有客户端和服务端的运行状态按照预定方式判断所述私有客户端和服务器是否出现异常；

异常处理模块，所述异常处理模块配置用于根据判断结果将异常端的异常状态信息和/或处理方式发送给非异常端。

本发明的又一方面还提出一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机指令，所述指令由所述处理器执行时实现上述实施方式中任意一项所述方法的步骤。

本发明的再一方面还提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述实施方式中任意一项所述方法的步骤。

通过本发明实施例提出一种客户端的故障优化，将客户端状态纳入到分布式存储系统Monitor服务监测范围内，由客户端收集状态信息，并将信息上报之分布式存储系统Monitor服务，实现有存储系统对客户端状态的监测功能。不但能够通过存储系统完成对客户端状态的监测和信息显示，并且在某些故障场景，存储系统Monitor服务对比收集到的服务端与客户端的状态信息，完成异常的判定，并告知客户端完成对应恢复操作，提升了存储系统的可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种客户端的故障优化方法的流程示意图；

图2为本发明实施例提供的一种客户端的故障优化系统的结构示意图；

图3为本发明实施例提供的一种计算机设备的结构示意图；

图4为本发明实施例提供的一种计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

本发明旨在解决传统的分布式存储系统中，私有客户端与分布式存储系统各个服务端的链接问题。

在分布式存储系统中，私有客户端用于实现与分布式存储系统的数据通信，即通过网络等方式将对应的数据存储到分布式存储系统中，或者从分布式存储系统中获取对应的数据。在此过程中会出现私有客户端“卡死”的情况，即因分布式存储系统中的数据存储服务出现异常，而客户端这边并不知情，导致传输数据后一直等待服务端的回应，严重时导致客户端崩溃。

如图1所示，为解决上述问题，本发明提出一种客户端的故障优化方法，包括：

步骤S1、收集私有客户端和服务端的业务运行状态，并基于私有客户端和服务端的运行状态按照预定方式判断所述私有客户端和服务器是否出现异常；

步骤S2、根据判断结果将异常端的异常状态信息和/或处理方式发送给非异常端。

在步骤S1中，私有客户端和服务端的运行状态是指私有客户端和服务端运行在计算机上的软件或者说是相关进程所需要的计算机资源，具体包括：CPU资源占用、内存资源占用、可用内存资源、网络带宽占用以及剩余可用带宽、服务端与客户端建立的链接数量以及状态等。在私有客户端上收集私有客户端在对应的设备上所占用的计算机资源信息。并进一步通过占用的计算机资源信息判断客户端的状态，例如通过占用的CPU资源和内存资源与常规情况下客户端占用的资源进行对比来判断客户端的状态。同理对于服务端一样。服务端是指分布式存储系统中的数据存储服务在服务器上的软件端，例如，元数据服务器端、数据服务端等分布式存储系统中的功能模块。

进一步，将私有客户端与服务端具有关联的运行状态数据进行对比，例如私有客户端与服务端均需要网络进行通信，因此在网络方面二者所使用的带宽以及链接状态应该是共通的。因此可基于链接状态和带宽状态的对比来实现对私有客户端和服务端状态的判断，例如，如果服务端出现异常崩溃，没有正确地结束与私有客户端的链接，导致在私有客户端上仍然显示服务端正常，在传统的实现方式上则会出现私有客户端依然保持旧有的链接，致使私有客户端一直等待服务端的响应。

所以，在本实施例中，在私有客户端上收集与服务端建立的链接的状态，同时在服务端上收集服务端与私有客户端建立的链接的状态，将二者进行对比，如果在私有客户端上显示该链接的状态为正常(espadlished)，而在服务端上已无此链接的相关信息或者处于其他状态，则认为是服务端出现异常。

在步骤S2中，如前所述，假设是服务端出现异常，则将服务端为异常的信息以及客户端应该如何处理该异常的方式发送给私有客户端。

在传统的实现方式中分布式存储系统的Monitor服务，即分布式存储系统中的监控服务用于监控服务端的运行状态。因此为保证分布式系统的集成化，在本实施例中，将私有客户端也挂载到分布式存储系统的监控服务(Monitor)上收集私有客户端和服务端的业务运行状态，私有客户端定期将自身在计算机上所占用的资源尤其是与元数据服务端、数据服务端等分布式系统的服务端的链接状态发送给分布式存储系统的监控服务。有分布式存储系统的监控服务接收并保存。

在本发明的一些实施方式中，方法还包括：

在本实施例中，分布式存储系统的监控服务(monitor)则对比私有客户端和服务端所建立的链接的状态，如果对比发现，服务端的状态为异常，私有客户端的状态正常，则将对应的服务端的异常状态告知给私有客户端端并让私有客户端重新与该服务端建立新的链接。分布式存储系统一般使用half-open这种半开状态的链接，如果收到存储系统的异常判定，就可以将对应的链接进行重置操作，该操作是安全的，不会造成数据丢失

如果是私有客户端与某个服务端的对比结果显示，服务端保持着该链接，而私有客户端上显示该链接已经被放弃或不存在与该服务端的链接，则此时通过分布式存储系统的监控服务将该情况反馈给服务端，并告知服务端将对应的链接清除。

本实施例中的私有客户端和服务端异常是指私有客户端和服务端建立的一个或多个网络链接的异常，在计算机中一个网络端口可与多个设备建立网络链接，通常服务端会使用某个端口与众多的私有客户端建立网络链接，但存在一些意外情况导致与某个客户端的链接出现异常断开。

在本实施例中，在判断私有客户端和服务度是否异常时根据私有客户端和服务端运行时所占用的资源状态的方式来判断，例如，从私有客户端发出的数据所使用的网络带宽为12MB每秒，但在服务端(接收数据对应的是分布式存储系统中的数据服务端)与该私有客户端建立的链路的传输带宽确不足12MB定然导致相应的网络数据被丢弃的情况。因此通过分布式服务器的监控服务告知客户端出现网络传输异常，对应的可以告知私有客户端降低上传带宽。

在本实施例中，根据私有客户端和服务端处理对应数据业务的资源占用计算处理同样数据对内存和计算资源的一般使用率，例如，假设私有客户端向服务端发送100MB的数据在私有客户端本地所使用的内存空间为10MB(假设只有10MB的数据作为缓存存储到内存)且只需少量的CPU资源，而私有客户端所使用的内存空间(假设只有一个传输任务)超过10MB的25％为13MB，则私有客户端存在异常。通过分布式存储系统的监控服务告知服务端断开与该私有客户端的链接，同时告知私有客户端重启或重新加载对应的任务。

在本发明的一些实施例中，还通过将多个私有客户端处理同样大小或单位大小的传输任务时的计算机资源消耗计算平均值，然后基于平均值作为参考如果处理同样大小的或单位大小的数据的客户端所使用的计算机资源超过一定范围，则将对应的私有客户端认定为异常。

对于服务端则根据其处理一定大小或单位大小的数据传输任务所消耗的计算机资源的多少计算对应的平均值，然后评估其对某个私有客户端的传输任务所消耗的计算机资源是否超过平均值且超过预定范围。如果超过说明在处理该任务时出现异常。

在本发明的一些实施方式中，如果分布式系统中存在多个处理相同任务的服务端，则以私有客户端相同的方式判断服务端在资源方面的占用并评估状态。

实施例：

私有客户端通过挂载到分布式存储系统，与存储系统之元数据服务、数据服务以及Monitor服务建立链接；私有客户端定期检查自身状态，包括，链接状态，使用内存大小等，并通过链接将其发送到Monitor服务端；存储系统Monitor服务定期收集包括元数据服务、数据服务以及客户端在内的各个组件的状态；存储系统经多次收集到的信息进行一致性比对，判断得出私有客户端是否存在异常；私有客户端收到存储系统异常信息，并作出对应响应；对于half-open这种半开状态的链接而言，如果收到存储系统的异常判定，就可以将对应的链接进行重置操作，该操作是安全的，不会造成数据丢失；同时，存储系统可将客户端的状态进行实时显示；客户端卸载时，存储系统Monitor终止对于该客户端的监测。

异常分析模块1，所述异常分析模块1配置用于收集私有客户端和服务端的业务运行状态，并基于私有客户端和服务端的运行状态按照预定方式判断所述私有客户端和服务器是否出现异常；

异常处理模块2，所述异常处理模块2配置用于根据判断结果将异常端的异常状态信息和/或处理方式发送给非异常端。

在本发明的一些实施方式中，所述异常分析模块1进一步配置用于：

如图3所示，本发明的又一方面还提出一种计算机设备，包括：

至少一个处理器21；以及

存储器22，所述存储器22存储有可在所述处理器21上运行的计算机指令23，所述指令23由所述处理器21执行时实现一种客户端的故障优化方法，包括：

在本发明的一些实施方式中，方法还包括：

如图4所示，本发明的再一方面还提出一种计算机可读存储介质401，所述计算机可读存储介质401存储有计算机程序402，所述计算机程序402被处理器执行时实现一种客户端的故障优化方法，包括：

在本发明的一些实施方式中，方法还包括：

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，典型地，本发明实施例公开所述的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如服务器等，因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外，应该明白的是，本文所述的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM)，该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中，所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中，处理器和存储介质可以作为分立组件驻留在用户终端中。

在一个或多个示例性设计中，所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何链接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

Claims

1.一种客户端的故障优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于私有客户端和服务端的运行状态按照预定方式判断所述私有客户端和服务器是否出现异常包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于私有客户端和服务端的运行状态按照预定方式判断所述私有客户端和服务器是否出现异常包括：

7.根据权利要求5所述的方法，其特征在于，所述根据私有客户端和服务端运行时所占用的资源状态判断所述私有客户端和所述服务端的运行状态包括：

8.一种客户端的故障优化系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机指令，所述指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。