CN117806890B

CN117806890B - 一种基于分布式存储的慢盘检测处理方法

Info

Publication number: CN117806890B
Application number: CN202410218994.8A
Authority: CN
Inventors: 王锐; 杜小华; 黄耀年; 梁山虎; 王皓; 刘林; 曹学贵; 侯栋
Original assignee: Sichuan Huacun Zhigu Technology Co ltd
Current assignee: Sichuan Huacun Zhigu Technology Co ltd
Priority date: 2024-02-28
Filing date: 2024-02-28
Publication date: 2024-05-03
Anticipated expiration: 2044-02-28
Also published as: CN117806890A

Abstract

本发明属于分布式存储磁盘检测技术领域，具体涉及一种基于分布式存储的慢盘检测处理方法，首先将各存储节点进行主、从节点划分，并且从节点定期向主节点进行注册；然后从主节点读取维护的各节点相关信息，通知各节点完成一定时间内的磁盘数据采集，汇总后完成一次数据收集过程；在达到一定数据量后，基于聚类算法对磁盘根据不同业务场景进行分组；再对各不同业务场景的分组中是否存在慢盘进行识别；最后采用积分的方式对慢盘情况进行累加，达到积分阈值识别为慢盘。通过上述慢盘检测的方法，能够有效提高慢盘识别的准确率，防止出现正常盘误识别为慢盘的情况出现。

Description

一种基于分布式存储的慢盘检测处理方法

技术领域

本发明属于分布式存储磁盘检测技术领域，尤其涉及一种基于分布式存储的慢盘检测处理方法。

背景技术

分布式存储是目前广泛使用的数据存储方法，原理是将数据分散的存储于多个节点或服务器上，而不是简单的存储在单个地点。其通过提高存储系统的可靠性、可拓展性、性能和灵活性，为现代应用提供了强大的数据存储基础，在面对大规模数据和复杂应用需求时，分布式存储已经成为一个关键的技术基石。

慢盘指的是存储系统中某个磁盘相比于其它磁盘而言性能较差（包括读写速率、处理IO请求的能力等）的情况，类似木桶效应慢盘可能会成为整个系统的瓶颈，从而对整个存储系统的性能产生负面影响，因此及时检测、处理慢盘问题是维护存储系统稳定性和性能的关键。

现有技术中通常采用直接对所有节点进行数据收集的方式，没有充分考虑到分布式存储的分布式特点；此外通常通过对I/O响应时间做阈值的方法来进行慢盘检测，即获取待检测的磁盘组在特定时间内的I/O响应时间，若某磁盘若干次的时间超过预设值，则确定为慢盘。此种方式仅局限于某一指标缺乏对慢盘成因分析的依据数据，此外并未考虑不同磁盘可能处于不同业务组的影响，连续多次识别后最终认定为慢盘也缺乏了灵活性，因此采用直接收集数据并根据阈值的方式进行慢盘检测均存在一定的局限性。

因此，如何对基于分布式存储中的慢盘进行检测，是目前亟需解决的技术问题。

发明内容

本发明的目的在于提供一种基于分布式存储的慢盘检测处理方法，用以解决现有技术中的基于分布式存储中的慢盘进行检测的方法中存在一定局限性，慢盘检测准确率低的技术问题。

为解决上述技术问题，本发明采用的技术方案如下：

一种基于分布式存储的慢盘检测处理方法，包括以下步骤：

S1：将各存储节点进行主、从节点划分，并且从节点定期向主节点进行注册；

S2：从主节点读取维护的各节点相关信息，通知各节点完成一定时间内的磁盘数据采集，汇总后完成一次数据收集过程；

S3：达到一定数据量后，基于聚类算法对磁盘根据不同业务场景进行分组；

S4：对各不同业务场景的分组中是否存在慢盘进行识别；

S5：采用积分的方式对慢盘情况进行累加，达到积分阈值识别为慢盘。

优选的，步骤S1包括以下具体过程：

S11：将各存储节点中选择指定数量的主节点，其他存储节点划分为从节点；

S12：各从节点定期向主节点发送注册信息，所述注册信息包括从节点的IP地址和端口信息；

其中，步骤S11中的主节点的指定数量大于1。

优选的，步骤S2包括以下具体过程：

S21：在获取磁盘信息时，先从主节点中获取所有节点信息列表；

S22：根据所有节点信息列表，通知各主、从节点进行指定时间的磁盘信息数据采集；

其中，各个节点在进行信息采集时，所采集的磁盘数据是指定时间内的均值。

优选的，采集的磁盘数据包括型号、序列号、时间戳的基本信息，还包括Q2Q、Q2G、G2I、Q2M、I2D、M2D、D2C、Q2C、svtime、r_per_sec、w_per_sec、avg_rrq_sz、avg_wrq_sz的磁盘性能指标；

其中svtime作为磁盘性能的主要衡量指标，其具体计算方式如下：

total_IO_handle_time = total time - 空闲时间；

svtime = total_IO_handle_time / IO_number。

优选的，步骤S3包括以下具体过程：

S31：检查采集的磁盘数据条目的数量是否达到指定数量的要求，若是，则执行步骤S32，若否，则记录并与下次采集的有效磁盘数据进行合并；

S32：采用DBSCAN算法对磁盘进行分组；

其中在步骤S32中，对磁盘进行分组所采用的指标数据包括r_per_sec、w_per_sec、avg_rrq_sz、avg_wrq_sz。

优选的，所述DBSCAN算法中的参数采用如下自动选择的方式：

S321：根据磁盘样本情况通过计算归一化后各样本的欧式距离得到相应的距离矩阵d；

S322：对得到的距离矩阵d进行排序；

S323：由类内最小样本数量k=3，eps=d前k列均值进行分类；

S324：增加k的数量，得到新的分类结果；

S325：根据样本情况，若连续一定数量的分类结果相同则认为此参数为最优参数，否则重复步骤S324和步骤S325。

优选的，步骤S4包括以下具体过程：

S41：当已分组且组内磁盘数据条目的数量达到指定数量的要求，则根据自动获取积分阈值的方式进行慢盘识别；

S42：当磁盘数据条目的数量不足或未能分到任一组的磁盘，采取根据经验数据获取阈值的方式进行慢盘识别。

优选的，步骤S5包括以下具体过程：

S51：每条磁盘数据记录总积分、上次更新积分情况、持续正常次数；

S52：单次的积分情况由改进sigmoid函数实现根据超出具体值的大小，对相应硬盘积分加1-2分的效果；

S53：若连续被识别为慢盘，则通过阶梯式函数来增加所加积分的倍数;

S54: 若磁盘在连续多次被识别为正常盘，而偶然被识别为慢盘时，所加分数为实际分数/之前连续被识别为正常盘的次数；

S55: 如果磁盘偶然出现慢盘的现象，而后续连续识别为正常盘，则恢复硬盘的积分为0；

S56: 若某磁盘的总积分超过积分阈值，则认为其为慢盘；

其中，在记录中的持续正常次数分为正负值，正值表示持续认定为正常盘的次数，负值表示持续认定为慢盘的次数。

优选的，对于磁盘数据收集中涉及到的对一个盘的数据进行累积收集的情况，根据从收集到最终分析的时间阶段，磁盘可能会处于相同或不同的业务场景，进而会被划分为相同或不同类别，在更新积分时，若一次想要对同一盘进行多次积分更新时，若识别为慢盘则正常更新，若识别为正常盘则持续正常次数只增加一次；

当识别为慢盘时，将其积分相关数据输出，以识别其慢盘出现的连续或间隔情况，另外将其指标相关数据输出，通过明确该慢盘在哪个阶段性能低，以协助慢盘的故障诊断和恢复。

本发明的有益效果包括：

本发明提供的基于分布式存储的慢盘检测处理方法，首先将各存储节点进行主、从节点划分，并且从节点定期向主节点进行注册；然后从主节点读取维护的各节点相关信息，通知各节点完成一定时间内的磁盘数据采集，汇总后完成一次数据收集过程；在达到一定数据量后，基于聚类算法对磁盘根据不同业务场景进行分组；再对各不同业务场景的分组中是否存在慢盘进行识别；最后采用积分的方式对慢盘情况进行累加，达到积分阈值识别为慢盘。通过上述慢盘检测的方法，能够有效提高慢盘识别的准确率，防止出现正常盘误识别为慢盘的情况出现。

附图说明

图1为本发明的基于分布式存储的慢盘检测处理方法的流程图。

图2为本发明的基于分布式存储的慢盘检测处理方法的主从节点架构设计图。

图3是本发明的DBSCAN算法自动寻优流程图。

图4是本发明改进sigmoid公式及效果示意图。

图5是本发明阶梯函数的公式和效果示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请将围绕可包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是，各个系统可以包括另外的设备、组件、模块等，并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外，还可以使用这些方案的组合。

另外，在本申请实施例中，“示例地”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方法呈现概念。

本申请实施例中，“信息（information）”，“信号（signal）”，“消息（message）”，“信道（channel）”、“信令（singaling）”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。“的(of)”，“相应的（corresponding，relevant）”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

下面结合附图1~图5对本发明作进一步的详细说明：

参见附图1-图2所示，一种基于分布式存储的慢盘检测处理方法，包括以下步骤：

S4：对各不同业务场景的分组中是否存在慢盘进行识别；

上述方案中，在步骤S1中，为了维护各节点信息，将各存储节点进行主、从节点划分；并且从节点需要定期向主节点进行注册，以方便进行存储节点维护，客户端通知采集数据时只需向主节点获取节点信息列表，避免了每次移除或某节点异常时需修改客户端信息的影响。在步骤S2中，从主节点读取维护的各节点相关信息，通知各节点完成指定时间内的磁盘数据采集，汇总后完成一次数据收集过程；完成指定时间的各节点磁盘数据信息采集，此处采集的指标信息更加的细化，一方面用来为后续的根据业务场景进行分类提供分类指标，另一方面是为后续慢盘的故障定位分析提供支撑。

在步骤S3中，采集的磁盘数据信息达到指定数据量后，基于聚类算法对磁盘根据不同业务场景进行分组。此处聚类算法所用为基于密度的DBSCAN算法，重在对磁盘所经历的不同业务进行分类，划分的所用指标与之前有所不同。因该算法的输入指标是考虑了各种业务场景下导致的磁盘具体指标的不同后选取的特表型指标，因此可采用此种方式对磁盘进行分类。此外此算法具体分为几个类别与超参数无关，采用自动参数选择，并根据实际情况进行分类。在步骤S4中对各分组中是否存在慢盘进行识别，对基于密度的DBSCAN算法分类得到的每个组根据磁盘的数量情况采取不同的慢盘识别方式。

上述基于分布式存储的慢盘检测处理方法，有效提升了慢盘检测识别过程中的准确性。

其中，步骤S1包括以下具体过程：

S12：各从节点定期向主节点发送注册信息，所述注册信息包括从节点的IP地址和端口信息，以表明各节点的正常运行，以及同时如遇基本信息更改时能够确保数据能够及时更新。

其中，步骤S11中的主节点的指定数量大于1，以避免主节点故障导致的架构失效。并且所述各节点的厂商以及型号不限，各节点的型号也无需统一。

步骤S2包括以下具体过程：

其中，各个节点在进行信息采集时，所采集的磁盘数据是指定时间内的均值。采集的磁盘数据包括型号、序列号、时间戳的基本信息，还包括Q2Q、Q2G、G2I、Q2M、I2D、M2D、D2C、Q2C、svtime、r_per_sec、w_per_sec、avg_rrq_sz、avg_wrq_sz的磁盘性能指标；

total_IO_handle_time = total time - 空闲时间；

svtime = total_IO_handle_time / IO_number。

上述各性能指标中，Q2Q为块设备层接收到IO到IO完成的时间，Q2G为生成 I/O 请求所消耗的时间，包括 remap 和split 的时间，G2I为I/O 请求进入 I/O Scheduler 所消耗的时间，包括merge 的时间，Q2M为块设备层开始处理IO到IO合并的时间，I2D为I/O请求在I/O Scheduler中等待的时间，可作为I/O Scheduler性能的指标，M2D IO请求合并到开始发送到驱动的时间，D2C 为I/O 请求在Driver 和硬件上所消耗的时间，可以作为硬件性能的指标；Q2C为整个I/O请求所消耗的时间(Q2I+I2D+D2C= Q2C)，相当于iostat的 await、svtime 为IO处理的平均时间、r_per_sec为磁盘的读IOPS、w_per_sec为磁盘的写IOPS、avg_rrq_sz为磁盘的读IO大小、avg_wrq_sz为磁盘的写IO大小。

上述方案中可以看出给出的该IO延时的统计方式，屏蔽了其它因素对磁盘的影响，完全的体现了磁盘本身处理IO的延时情况。此外，其余指标的统计主要用于接下来的磁盘分类及出现慢盘后的数据导出，以将磁盘正确分类及协助分析慢盘产生的原因。

步骤S3包括以下具体过程：

由于会舍弃无效数据及下述分析会涉及统计方法，因此数量过少时将没有统计分析的意义。

S32：采用DBSCAN算法对磁盘进行分组。将处理相同业务需求的磁盘划分到一组，分类所用数据无任何超参数，充分结合业务场景。

由于各节点的磁盘在使用过程中，可能会出现未对盘进行操作的情况，故对此类数据分析则会造成相应的资源浪费，因此采用取出此类数据的方式减少对无效数据的分析；此外，在小型业务场景或进行IO操作的磁盘数量过少时，难以达到本说明聚类和统计思想的初衷，可能会出现未分类磁盘较多的问题，故实际采取如下方式：收集完一次各节点的数据后，去除其中未进行IO操作的磁盘；判定有效数据的数量，若未达到数据量要求则记录并与下次收集得到的有效数据合并。

参见图3，所述DBSCAN算法中的参数采用如下自动选择的方式：

S322：对得到的距离矩阵d进行排序；

S323：由类内最小样本数量k=3，eps=d前k列均值进行分类；

S324：增加k的数量，得到新的分类结果；

步骤S4包括以下具体过程：

磁盘数据数目足够则通过此类已有磁盘进行是否有慢盘的识别，若类中数目不足或划分为异常类则通过借助经验数据的方式识别是否有慢盘。

由于在相同的业务压力情况下，磁盘的延时大致呈正态分布，可通过设定慢盘出现的概率以获取相应的延时阈值，当磁盘延时大于此阈值时则认定为慢盘。此外由于组内延时的标准差对最终结果影响较大，类中均值及方差计算前先采用去除最大最小值的方式以减少误差。

此外对组内磁盘数量不足或未能分组的磁盘，其数据没有统计意义，故采用经验数据的方式进行识别。由图可得IO大小越大，svtime越大，队列深度越大，svtime越小，故取在全随机、单并发、队列深度为1的情况下对大量磁盘所测数据的均值作为经验数据。在实际使用时，为减少误识别的情况，选取的经验数据为经验数据中大于待检测硬盘平均IO大小中最小IO情况下的均值和方差。

步骤S5包括以下具体过程：

S51：每条磁盘数据记录总积分、上次更新积分情况、持续正常次数，便于后续的积分修改；

S52：单次的积分情况由改进sigmoid函数实现根据超出具体值的大小，对相应硬盘积分加1-2分的效果，根据超出所规定阈值的大小确定初始加分值大小；

S53：若连续被识别为慢盘，则通过阶梯式函数来增加所加积分的倍数，对连续识别的情况进行积分的快速累加；

S54: 若磁盘在连续多次被识别为正常盘，而偶然被识别为慢盘时，所加分数为实际分数/之前连续被识别为正常盘的次数，偶尔识别未慢盘可能为偶然事件，对所加分数进行缩小；

S55: 如果磁盘偶然出现慢盘的现象，而后续连续识别为正常盘，则恢复硬盘的积分为0，连续多次识别为正常盘，说明不是慢盘若之前有积分则进行清零；

S56: 若某磁盘的总积分超过积分阈值，则认为其为慢盘，经过以上处理，若为慢盘则进行报警，并上报收集的其IO处理的各阶段数据协助故障分析。

其中，在记录中的持续正常次数分为正负值，正值表示持续认定为正常盘的次数，负值表示持续认定为慢盘的次数。首次识别为慢盘时积分的弱化处理及连续相应次数识别为正常盘的积分归零，是为了屏蔽临时慢盘的影响。

对于磁盘数据收集中涉及到的对一个盘的数据进行累积收集的情况，根据从收集到最终分析的时间阶段，磁盘可能会处于相同或不同的业务场景，进而会被划分为相同或不同类别，在更新积分时，若一次想要对同一盘进行多次积分更新时，若识别为慢盘则正常更新，若识别为正常盘则持续正常次数只增加一次。

下面以具体的实例说明本发明的慢盘检测方法：

初始选择两个节点作为主节点，负责管理其它节点信息，期间可进行主从节点的移除相关操作，冗余主节点会自动更新节点的信息情况，配置硬盘数据的收集时间为30s，所收集时间为10s，即每隔30s通知各节点进行10s的磁盘数据收集，在收集期间对磁盘分别进行读写、只读、只写操作，尽量复现实际中真实的业务场景。

取消部分磁盘的业务，检测冗余数据的过滤情况，同时设定数量阈值为100，即当有效磁盘数据不足100时，不进行分类、积分操作，而是累计此时数据与下次所收集数据，直到达到要求数据量才开始分析。

对已分类中样本数大于10的，采用使用去除类中最大最小延时后，以正太分布的方式延时的均值和方差作为依据，以慢盘概率为0.0001得出对应慢盘的延时，类中延时大于此阈值的则认定为慢盘。

参见图4，类中样本数不足或被认定为异常值的类，采用经验数据的均值及方差的方式，选取的经验数据为经验数据中大于待检测硬盘平均IO大小中最小IO情况下的均值和方差，概率同0.0001，若得出磁盘的延时大于阈值，则认定为慢盘，根据大于阈值的多少过sigmoid函数确定所加积分。

参见图5，更新所有磁盘的积分，不认为慢盘的所更新分数为0，同时连续正常次数+1，若之前为负值则直接设为1；若为慢盘则根据连续正常次数去更新积分，负值代表连续异常的次数则需过阶梯型函数进行积分放大，正值代表之前被识别为正常值，则进行积分的缩小，同时将连续正常次数-1，若之前为正值则直接设为-1。

对同一磁盘在一次分析被多次分析的情况，可能会出现不同的识别情况，如均正常、均不正常、部分正常部分不正常，其中被识别为正常的持续正常次数只更新一次，而被识别为慢盘的则正常进行积分更新，最终设置积分阈值50，即当一个磁盘的积分大于此阈值时被认定为慢盘，此时输出其积分更新情况和所收集的所有指标，以协助定位慢盘产生的原因及恢复。

以上所述实施例仅表达了本申请的具体实施方法，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种基于分布式存储的慢盘检测处理方法，其特征在于，包括以下步骤：

S4：对各不同业务场景的分组中是否存在慢盘进行识别；

S5：采用积分的方式对慢盘情况进行累加，达到积分阈值识别为慢盘；

其中，步骤S4包括以下具体过程：

S42：当磁盘数据条目的数量不足或未能分到任一组的磁盘，采取根据经验数据获取阈值的方式进行慢盘识别；

步骤S5包括以下具体过程：

S51：每条磁盘数据记录总积分、上次更新积分情况和持续正常次数；

S56: 若某磁盘的总积分超过积分阈值，则认为其为慢盘；

2.根据权利要求1所述的一种基于分布式存储的慢盘检测处理方法，其特征在于，步骤S1包括以下具体过程：

其中，步骤S11中的主节点的指定数量大于1。

3.根据权利要求1所述的一种基于分布式存储的慢盘检测处理方法，其特征在于，步骤S2包括以下具体过程：

4.根据权利要求3所述的一种基于分布式存储的慢盘检测处理方法，其特征在于，采集的磁盘数据包括型号、序列号、时间戳的基本信息，还包括Q2Q、Q2G、G2I、Q2M、I2D、M2D、D2C、Q2C、svtime、r_per_sec、w_per_sec、avg_rrq_sz、avg_wrq_sz的磁盘性能指标；

上述各性能指标中，Q2Q为块设备层接收到IO到IO完成的时间，Q2G为生成 I/O 请求所消耗的时间，包括 remap 和 split 的时间，G2I为I/O 请求进入 I/O Scheduler 所消耗的时间，包括 merge 的时间，Q2M为块设备层开始处理IO到IO合并的时间，I2D为I/O请求在I/O Scheduler中等待的时间， M2D为IO请求合并到开始发送到驱动的时间，D2C 为I/O 请求在 Driver 和硬件上所消耗的时间；Q2C为整个I/O请求所消耗的时间，即Q2I+I2D+D2C=Q2C， svtime 为IO处理的平均时间，r_per_sec为磁盘的读IOPS，w_per_sec为磁盘的写IOPS，avg_rrq_sz为磁盘的读IO大小，avg_wrq_sz为磁盘的写IO大小；

total_IO_handle_time = total time - 空闲时间；

svtime = total_IO_handle_time / IO_number；

其中total time代表IO处理的总时间，total_IO_handle_time代表磁盘处理IO的总时间，空闲时间指IO未到达磁盘，磁盘处于空闲的时间。

5.根据权利要求1所述的一种基于分布式存储的慢盘检测处理方法，其特征在于，步骤S3包括以下具体过程：

S32：采用DBSCAN算法对磁盘进行分组；

其中在步骤S32中，对磁盘进行分组所采用的指标数据包括r_per_sec、w_per_sec、avg_rrq_sz、avg_wrq_sz，r_per_sec为磁盘的读IOPS、w_per_sec为磁盘的写IOPS、avg_rrq_sz为磁盘的读IO大小、avg_wrq_sz为磁盘的写IO大小。

6.根据权利要求5所述的一种基于分布式存储的慢盘检测处理方法，其特征在于，所述DBSCAN算法中的参数采用如下自动选择的方式：

S322：对得到的距离矩阵d进行排序；

S323：由类内最小样本数量k=3，eps=d前k列均值进行分类；

S324：增加k的数量，得到新的分类结果；

S325：根据样本情况，若连续一定数量的分类结果相同则认为此参数为最优参数，否则重复步骤S324和步骤S325；

其中eps为两个样本之间的欧式距离。

7.根据权利要求1所述的一种基于分布式存储的慢盘检测处理方法，其特征在于，对于磁盘数据收集中涉及到的对一个盘的数据进行累积收集的情况，根据从收集到最终分析的时间阶段，磁盘由于处于相同或不同的业务场景而被划分为相同或不同类别，在更新积分时，在通过一次对同一盘进行多次积分更新时，若识别为慢盘则正常更新，若识别为正常盘则持续正常次数只增加一次；

当识别为慢盘时，将其积分数据输出，用于识别其慢盘出现的连续或间隔情况，并将其指标相关数据输出，通过明确该慢盘性能低的阶段协助慢盘的故障诊断和恢复。