CN108804039B

CN108804039B - 自适应的数据恢复流控方法、装置、电子设备及存储介质

Info

Publication number: CN108804039B
Application number: CN201810565004.2A
Authority: CN
Inventors: 陈学伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2021-01-29
Anticipated expiration: 2038-06-04
Also published as: CN108804039A; WO2019232993A1

Abstract

一种自适应的数据恢复流控方法，包括：定期同步分布式存储系统中的各个存储节点的信息；当侦测到有存储节点发生了故障时，获取发生故障的存储节点的存列表；识别上一个统计周期内用户应用的IO负载类别；根据所述上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值；根据所述存储列表及所述当前统计周期对应的流控阈值，对发生故障存储节点的当前统计周期内的数据执行恢复操作；重复执行上述步骤，直至将数据全部恢复。本发明还提供一种自适应的数据恢复流控装置、电子设备及存储介质。本发明能够在提高大规模分布式存储系统数据修复效率、降低数据丢失风险的同时，避免对正常输入输出业务性能造成明显冲击，具有很好的流控效果。

Description

自适应的数据恢复流控方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种自适应的数据恢复流控方法、装置、电子设备及存储介质。

背景技术

随着大数据和云计算时代的到来，各个领域的数据量呈现出快速增长的趋势。这些不断增长的海量数据需要依赖大规模的分布式存储系统，实现可靠的存储和高效的访问。然而，存储系统的规模越大，发生故障的概率也就越高。为了应对随时可能出现的故障，以保证数据存储的可靠性，分布式存储系统需要进行数据冗余。一种常见的数据冗余策略是将数据的多个副本存储到不同的物理节点上，当部分副本损坏时，可以根据完好的副本对损坏副本进行修复。

另外，在对分布式存储系统进行扩容时，需要进行一定规模的副本迁移，以此保证数据分布的均衡性，而这种数据迁移也被认为是一种特殊的数据修复。

一方面需要提高数据修复效率以降低数据丢失风险，但另一方面，存储系统需要确保用户应用的高效访问，避免数据修复对正常业务的服务质量造成冲击，如何较好的权衡数据修复与正常的数据输入输出业务之间的任务分配，在提高数据修复效率的同时，避免对正常的数据输入输出业务性能造成明显冲击，使业务系统能持续稳定地获得较高的随机每秒输入输出次数(Input/Output Operations Per Second，IOPS)和吞吐率，对于分布式存储系统的性能提高是至关重要的。

发明内容

鉴于以上内容，有必要提出一种自适应的数据恢复流控方法、装置、电子设备及存储介质，能够在提高大规模分布式存储系统数据恢复效率、降低数据丢失风险的同时，确保正常输入输出业务性能不被冲击，具有很好的流控效果。

本发明的第一方面提供一种自适应的数据恢复流控方法，所述方法包括：

a)定期同步分布式存储系统中的各个存储节点的信息；

b)侦测是否有存储节点发生了故障；

c)当侦测到有存储节点发生了故障时，获取发生故障的存储节点的存储列表；

d)识别上一个统计周期内用户应用的IO负载类别；

e)根据所述上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值；

f)根据所述存储列表及所述当前统计周期对应的流控阈值，对发生故障的存储节点的当前统计周期内的数据执行恢复操作；

重复执行上述步骤d)-f)，直至对所述发生故障的存储节点的所有统计周期内的数据执行了恢复操作。

根据本发明的一个优选实施例，所述根据所述上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值包括：

采用预先设置的流控阈值作为第一个统计周期对应的流控阈值。

根据本发明的一个优选实施例，所述识别上一个统计周期内用户应用的IO负载类别包括：

获取所述上一个统计周期内用户应用的每一个IO的数据块大小，计算所述上一个统计周期内的IO的平均数据块大小；

获取所述上一个统计周期内的每个数据块的传输时延，计算所述上一个统计周期内的IO的平均数据块时延；

获取预先设置的IO的数据块大小的基准值及对应的数据块时延的基准值；

根据所述上一个统计周期内的所述IO的平均数据块大小、所述平均数据块时延、所述数据块大小的基准值、所述对应的数据块时延的基准值，计算所述上一个统计周期内的IO负载强度；

根据所述上一个统计周期内的IO负载强度，利用预先训练好的负载分类模型确定所述上一个统计周期内的IO负载类别。

根据本发明的一个优选实施例，所述IO负载类别包括：高负载类别、正常负载类别、低负载类别，所述根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值包括：

当所述上一个统计周期内的IO负载类别为高负载类别时，将所述上一个统计周期对应的流控阈值降低第一预设幅度，得到当前统计周期对应的流控阈值；

当所述上一个统计周期内的IO负载类别为低负载类别时，将所述上一个统计周期对应的流控阈值提高第二预设幅度，得到下一个统计周期对应的流控阈值；

当所述上一个统计周期内的IO负载类别为正常负载类别时，将所述上一个统计周期对应的流控阈值作为当前统计周期对应的流控阈值。

根据本发明的一个优选实施例，所述根据所述上一个统计周期内的所述IO的平均数据块大小、所述平均数据块时延、所述数据块大小的基准值、所述对应的数据块时延的基准值，计算所述上一个统计周期内的IO负载强度的计算公式为：

其中，X为上述上一个统计周期内的所述IO的平均数据块大小，Y为所述平均数据块时延，M为所述数据块大小的基准值，N为所述对应的数据块时延的基准值。

根据本发明的一个优选实施例，所述侦测是否有存储节点发生故障包括：

侦测所述分布式存储系统中的任何一个或者多个存储节点是否发生了无法启动、断电或断网；或者

侦测所述分布式存储系统中的任何一个或者多个存储节点中的磁盘是否发生了故障。

根据本发明的一个优选实施例，所述同步分布式存储系统中的各个存储节点的信息包括：

由所述分布式存储系统中的一个存储中心执行各个存储节点的信息同步；或者

采用去中心化的方法，由所述分布式存储系统中的任何一个存储节点发起各个存储节点的信息同步。

本发明的第二方面提供一种自适应的数据恢复流控装置，所述装置包括：

同步模块，用于定期同步分布式存储系统中的各个存储节点的信息；

侦测模块，用于侦测是否有存储节点发生了故障；

获取模块，用于当所述侦测模块侦测到有存储节点发生了故障时，获取发生故障的存储节点的存储列表；

识别模块，用于识别上一个统计周期内用户应用的IO负载类别；

计算模块，用于根据所述上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值；

恢复模块，用于根据所述存储列表及所述当前统计周期对应的流控阈值，对发生故障的存储节点的当前统计周期内的数据执行恢复操作。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述自适应的数据恢复流控方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述自适应的数据恢复流控方法。

本发明所述的自适应的数据恢复流控方法、装置、电子设备及存储介质，能够通过将一个恢复周期分割成多个统计周期，在每一个统计周期内，根据上一个统计周期内用户应用的IO负载类别动态调整当前统计周期内对应的流控阈值，根据不同的流控阈值对当前统计周期内的数据进行恢复操作。在上一个统计周期内用户应用的IO负载强度高的时候，降低当前统计周期内故障恢复的流控阈值，从而达到降低故障恢复强度，保证业务IO负载的目的；在上一个统计周期内用户应用的IO负载强度低的时候，提高当前统计周期内故障恢复的流控阈值，从而达到提高故障恢复强度，尽快将分布式存储系统恢复到健康状态的目标。即本发明在提高大规模分布式存储系统数据修复效率、降低数据丢失风险的同时，能够避免对正常输入输出业务性能造成明显冲击，具有很好的流控效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的自适应的数据恢复流控方法的流程图。

图2是本发明实施例二提供的自适应的数据恢复流控装置的功能模块图。

图3是本发明实施例三提供的电子设备的示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明实施例的自适应的数据恢复流控方法应用在一个或者多个电子设备中。所述自适应的数据恢复流控方法也可以应用于由电子设备和通过网络与所述电子设备进行连接的服务器所构成的硬件环境中。网络包括但不限于：广域网、城域网或局域网。本发明实施例的自适应的数据恢复流控方法可以由服务器来执行，也可以由电子设备来执行；还可以是由服务器和电子设备共同执行。

所述对于需要进行自适应的数据恢复流控方法的电子设备，可以直接在电子设备上集成本发明的方法所提供的自适应的数据恢复流控功能，或者安装用于实现本发明的方法的客户端。再如，本发明所提供的方法还可以以软件开发工具包(Software DevelopmentKit，SDK)的形式运行在服务器等设备上，以SDK的形式提供自适应的数据恢复流控功能的接口，电子设备或其他设备通过提供的接口即可实现自适应的对数据恢复进行流控的功能。

实施例一

图1是本发明实施例一提供的自适应的数据恢复流控方法的流程图。根据不同的需求，该流程图中的执行顺序可以改变，某些步骤可以省略。

S11、定期同步分布式存储系统中的各个存储节点的信息。

本发明较佳实施例中，所述分布式存储系统(下文简称为存储系统)采用集群存储的方式进行数据分布式存储。

所述分布式存储是一种数据存储技术，其通过网络，使用集群中的每台存储系统上的剩余的磁盘空间，并将这些分散的剩余的磁盘空间的存储资源整合起来，构成一个虚拟的存储设备，将数据分散的存储在集群的各个角落。

因此，本发明所述的各个存储节点为所述集群中的每个子存储系统。例如，所述存储节点可以是一个存储服务器、一台计算机或者一个存储设备。

在本发明较佳实施例中，所述同步分布式存储系统中的各个存储节点的信息可以包括：1)由所述存储系统中的一个存储中心执行各个存储节点的信息同步；或者2)采用去中心化的方法，由所述存储系统中的任何一个存储节点发起各个存储节点的信息同步。

所述各个存储节点的信息的同步可以包括，但不限于：CPU、内存、磁盘空闲空间及存储文件列表等的同步。

本发明较佳实施例中，所述存储文件列表中记录有每个存储节点中所存储的数据的名称、大小、位置等信息。

S12、侦测是否有存储节点发生了故障。

在本发明较佳实施例中，所述存储节点发生故障可以是存储系统中的任何一个或者多个存储节点无法启动、断电或断网等，也可以是所述存储系统中的任何一个或者多个存储节点中的磁盘发生了故障等。因而，所述侦测是否有存储节点发生故障包括：侦测所述存储系统中的任何一个或者多个存储节点是否发生了无法启动、断电或断网等，或者侦测所述存储系统中的任何一个或者多个存储节点中的磁盘是否发生了故障等。

当所述存储系统中的任何一个存储节点发生了无法启动、断电、断网等故障时，所述故障存储节点会与其他存储节点及/或存储中心断开连接，因此，所述其他存储节点及/或存储中心可以侦测到有存储节点发生了故障。

当所述存储系统中的任何一个存储节点中的磁盘发生故障时，所述故障存储节点发送给其他存储节点及/或存储中心的同步信息中会包含所述磁盘的故障信息，因此，所述其他存储节点及/或存储中心可以侦测到有存储节点发生了故障。

当侦测到有存储节点发生了故障时，执行步骤S13；当没有侦测到有存储节点发生了故障时，继续执行步骤S12。

S13、获取发生故障的存储节点的存储列表。

在本发明较佳实施例中，获取发生故障的存储节点的存储列表包括获取发生故障的存储节点中所存储的数据的名称、大小、位置等信息。

S14、识别上一个统计周期内用户应用的IO负载类别。

将存储节点的数据从发生故障到完成故障恢复的整个过程称之为一个恢复周期。一个恢复周期可以包括多个统计周期，一个统计周期可以为一个预设时间段，例如，一个统计周期设置为1秒钟。

在本发明较佳实施例中，所述IO负载类别包括：高负载类别、正常负载类别、低负载类别。

具体地，所述识别上一个统计周期内用户应用的IO负载类别可以包括：

(1)获取上一个统计周期内用户应用的每一个IO的数据块大小，计算所述上一个统计周期内的IO的平均数据块大小。

所述上一个统计周期内的IO的平均数据块大小可以采用算术平均值算法、几何平均数算法，或者均方根平均数算法来计算。

所述算术平均值算法的公式为：

其中，N为IO的数据块的个数，S_i为每个IO的数据块大小。

所述几何平均数算法的公式为：

其中，N为IO的数据块的个数，S_i为每个IO的数据块大小。

所述均方根平均数算法的公式为：

其中，N为IO的数据块的个数，S_i为每个IO的数据块大小。

举例而言，假设检测到上一个统计周期内，用户应用共有十次IO，十次IO的数据块大小分别为：2M，1M，3M，0.5M，10M，4M，0.1M，1.2M，5M以及8M。

利用所述算术平均值算法计算所述上一个统计周期内的IO的平均数据块大小为：

/10＝3.48M。

利用所述几何平均数算法计算所述上一个统计周期内的IO的平均数据块大小为：

利用所述均方根平均数算法计算所述上一个统计周期内的IO的平均数据块大小为：

(2)获取所述上一个统计周期内的每个数据块的传输时延，计算所述上一个统计周期内的IO的平均数据块时延。

所述传输时延(简称为时延)是指结点在发送数据时使数据块从结点进入到传输媒体所需的时间，即一个发送站点从开始发送数据帧到数据帧发送完毕所需要的全部时间，或者一个接收站点从开始接收数据帧到数据帧接收完毕所需要的全部时间。

在本发明较佳实施例中，所述数据块的传输时延可以从每个存储节点中安装的一个负载量测工具或者性能监控工具中获取得到。

如上所述，所述上一个统计周期内的IO的平均数据块时延也可以采用算术平均值算法、几何平均数算法，或者均方根平均数算法来计算。假设，假设检测到上一个统计周期内，十次IO的传输时延分别为：1s、0.8s、1.5s、0.4s、5s、2s、0.02s、0.6s、3s及4.5s，则所述上一个统计周期内的IO平均数据块时延采用算术平均值算法来计算时，其结果为：

(1s+0.8s+1.5s+0.4s+5s+2s+0.1s+0.6s+3s+4.4s)＝1.88s。

应当理解的是，若上一个统计周期内的IO的平均数据块大小采用算术平均值算法来计算，则上一个统计周期内的IO的平均数据块时延也采用算术平均值算法来计算；若上一个统计周期内的IO的平均数据块大小采用几何平均数算法来计算，则上一个统计周期内的IO的平均数据块时延也采用几何平均数算法来计算；或者若上一个统计周期内的IO的平均数据块大小采用均方根平均数算法来计算，则上一个统计周期内的IO的平均数据块时延也采用均方根平均数算法来计算。

(3)获取预先设置的IO的数据块大小的基准值及对应的数据块时延的基准值。

在本发明较佳实施例中，所述IO数据块大小的基准值以及对应的数据块时延的基准值可以由存储系统的管理员根据经验预先设置。例如，根据经验，4K的数据块在传输时，时延最小，理想状态下可以达到50ms，则所述IO数据块大小的基准值可以设置为4k，对应的数据块时延的基准值可以设置为50ms。

(4)根据所述上一个统计周期内的所述IO的平均数据块大小、平均数据块时延、数据块大小的基准值、对应的数据块时延的基准值，计算所述上一个统计周期内的IO负载强度。

举例而言，假设上一个统计周期内的所述IO的平均数据块大小为X、平均数据块时延为Y、数据块大小的基准值为M、对应的数据块时延的基准值为N，则所述上一个统计周期内的IO负载强度的计算公式为：

(5)根据所述上一个统计周期内的IO负载强度，利用预先训练好的负载分类模型确定所述上一个统计周期内的IO负载类别。

优选地，所述负载分类模型包括，但不限于：支持向量机(Support VectorMachine，SVM)模型。将所述上一个统计周期内的IO的平均数据块大小、所述上一个统计周期内的IO的平均数据块时延、所述上一个统计周期内的IO负载强度作为所述负载分类模型的输入，经过所述负载分类模型计算后，输出上一个统计周期内的IO负载类别。

在本发明的优选实施例中，所述负载分类模型的训练过程包括：

1)获取正样本的IO负载数据及负样本的IO负载数据，并将正样本的IO负载数据标注负载类别，以使正样本的IO负载数据携带IO负载类别标签。

例如，分别选取500个高负载类别、正常负载类别、低负载类别对应的IO负载数据，并对每个IO负载数据标注类别，可以以“1”作为高负载的IO数据标签，以“2”作为正常负载的IO数据标签，以“3”作为低负载的IO数据标签。

2)将所述正样本的IO负载数据及所述负样本的IO负载数据随机分成第一预设比例的训练集和第二预设比例的验证集，利用所述训练集训练所述负载分类模型，并利用所述验证集验证训练后的所述负载分类模型的准确率。

先将不同负载类别的训练集中的训练样本分发到不同的文件夹里。例如，将高负载类别的训练样本分发到第一文件夹里、正常负载类别的训练样本分发到第二文件夹里、低负载类别的训练样本分发到第三文件夹里。然后从不同的文件夹里分别提取第一预设比例(例如，70％)的训练样本作为总的训练样本进行负载分类模型的训练，从不同的文件夹里分别取剩余第二预设比例(例如，30％)的训练样本作为总的测试样本对训练完成的所述负载分类模型进行准确性验证。

3)若所述准确率大于或者等于预设准确率时，则结束训练，以训练后的所述负载分类模型作为分类器识别所述当前统计周期内的IO负载类别；若所述准确率小于预设准确率时，则增加正样本数量及负样本数量以重新训练所述负载分类模型直至所述准确率大于或者等于预设准确率。

S15、根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值。

所述流控是指流量控制。流控的实现方法包括以下两种：一种是通过路由器、交换机的QoS模块实现基于源地址、目的地址、源端口、目的端口以及协议类型的流量控制；另一种是通过专业的流控设备实现基于应用层的流控。

恢复周期内的每一个统计周期可以对应一个流控阈值。每一个统计周期对应的流控阈值是动态调整的，当前统计周期对应的流控阈值可以根据上一个统计周期内的IO负载类别计算得到，下一个统计周期对应的流控阈值可以根据当前统计周期内的IO负载类别计算得到。

需要说明的是，本发明的恢复周期内的第一个统计周期对应的流控阈值为预先设置的流控阈值，可以由存储系统的管理者根据经验预先设置。即，在采用一个预设的流控阈值作为恢复周期内的第一个统计周期的流控阈值，根据第一个统计同期内的IO负载类别计算第二个统计周期对应的流控阈值；根据第二个统计同期内的IO负载类别计算第三个统计周期对应的流控阈值；以此类推。

具体的，所述根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值可以包括：

1)当所述上一个统计周期内的IO负载类别为高负载类别时，将所述上一个统计周期对应的流控阈值降低第一预设幅度，得到当前统计周期对应的流控阈值。

在上一个统计周期内的IO负载为高负载时，按照所述第一预设幅度降低流控阈值，以在当前统计周期内以低流控阈值对所述存储节点的数据执行恢复操作，通过降低数据恢复的速度来保证用户应用的高效访问。

在本发明的优选实施例中，所述第一预设幅度可以是上一个统计周期对应的流控阈值的1/2。即当前统计周期对应的流控阈值为上一个统计周期对应的流控阈值的1/2，下一个统计周期对应的流控阈值为当前统计周期对应的流控阈值的1/2。

2)当所述上一个统计周期内的IO负载类别为低负载类别时，将所述上一个统计周期对应的流控阈值提高第二预设幅度，得到下一个统计周期对应的流控阈值。

在上一个统计周期内的IO负载为低负载时，按照所述第二预设幅度提高流控阈值，以在当前统计周期内以高流控阈值对所述存储节点的数据执行恢复操作，在保证用户应用的访问质量的基础上，提高数据恢复的速度。

在本发明的优选实施例中，所述第二预设幅度可以是上一个统计周期对应的流控阈值的1.5倍。即当前统计周期对应的流控阈值为上一个统计周期对应的流控阈值的1.5倍，下一个统计周期对应的流控阈值为当前统计周期对应的流控阈值的1.5倍。

3)当所述上一个统计周期内的IO负载类别为正常负载类别时，将所述上一个统计周期对应的流控阈值作为当前统计周期对应的流控阈值。

S16、根据所述存储列表及当前统计周期对应的流控阈值，对发生故障的存储节点的当前统计周期内的数据执行恢复操作。

S17、判断是否对所述发生故障的存储节点的所有统计周期内的数据执行恢复了操作。

当确定对所述发生故障的存储节点的所有统计周期内的数据执行恢复了操作时，流程结束；当确定未对所述发生故障的存储节点的所有统计周期内的数据执行恢复了操作时，返回执行上述步骤S14。

综上所述，本发明所述的自适应的数据恢复流控方法，定期同步分布式存储系统中的各个存储节点的信息；当侦测到有存储节点发生了故障时，获取发生故障的存储节点的存储列表；识别上一个统计周期内用户应用的IO负载类别；根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值；根据所述存储列表及当前统计周期对应的流控阈值，对所述发生故障的存储节点的当前统计周期内的数据执行恢复操作，直至对所述发生故障的存储节点的所有统计周期内的数据执行恢复操作。本发明能够通过将一个恢复周期分割成多个统计周期，在每一个统计周期内，根据上一个统计周期内用户应用的IO负载类别动态调整当前统计周期内对应的流控阈值，根据不同的流控阈值对当前统计周期内的数据进行恢复操作。在上一个统计周期内用户应用的IO负载强度高的时候，降低当前统计周期内故障恢复的流控阈值，从而达到降低故障恢复强度，保证业务IO负载的目的；在上一个统计周期内用户应用的IO负载强度低的时候，提高当前统计周期内故障恢复的流控阈值，从而达到提高故障恢复强度，尽快将分布式存储系统恢复到健康状态的目标。即本发明在提高大规模分布式存储系统数据修复效率、降低数据丢失风险的同时，能够避免对正常输入输出业务性能造成明显冲击，具有很好的流控效果。

其次，当前统计周期内对应的流控阈值是根据上一个统计周期内用户应用的IO负载类别自动进行动态调整，不需管理者手动调节，减少了管理者的工作量，避免了因管理者的主观因素导致的调整不精准的问题，能够随着分布式存储系统系统及其硬件设施的变化进行动态调整，可靠性强。

以上所述，仅是本发明的具体实施方式，但本发明的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

下面结合第2至3图，分别对实现上述自适应的数据恢复流控方法的电子设备的功能模块及硬件结构进行介绍。

实施例二

图2为本发明自适应的数据恢复流控装置较佳实施例中的功能模块图。

在一些实施例中，所述自适应的数据恢复流控装置20(下文简称为“数据恢复流控装置20”)运行于电子设备中。所述数据恢复流控装置20可以包括多个由程序代码段所组成的功能模块。所述数据恢复流控装置20中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行(详见图1及其相关描述)自适应的数据恢复流控方法。

本实施例中，所述电子设备的数据恢复流控装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：同步模块201、侦测模块202、获取模块203、识别模块204、训练模块205、计算模块206/恢复模块207及判断模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在一些实施例中，关于各模块的功能将在后续的实施例中详述。

同步模块201，用于定期同步分布式存储系统中的各个存储节点的信息。

在本发明较佳实施例中，所述同步模块201同步分布式存储系统中的各个存储节点的信息可以包括：1)由所述存储系统中的一个存储中心执行各个存储节点的信息同步；或者2)采用去中心化的方法，由所述存储系统中的任何一个存储节点发起各个存储节点的信息同步。

侦测模块202，用于侦测是否有存储节点发生了故障。

在本发明较佳实施例中，所述存储节点发生故障可以是存储系统中的任何一个或者多个存储节点无法启动、断电或断网等，也可以是所述存储系统中的任何一个或者多个存储节点中的磁盘发生了故障等。因而，所述侦测模块202侦测是否有存储节点发生故障包括：侦测所述存储系统中的任何一个或者多个存储节点是否发生了无法启动、断电或断网等，或者侦测所述存储系统中的任何一个或者多个存储节点中的磁盘是否发生了故障等。

获取模块203，用于当所述侦测模块202侦测到有存储节点发生了故障时，获取发生故障的存储节点的存储列表。

识别模块204，用于识别上一个统计周期内用户应用的IO负载类别。

具体地，所述识别模块204识别上一个统计周期内用户应用的IO负载类别可以包括：

所述算术平均值算法的公式为：

其中，N为IO的数据块的个数，S_i为每个IO的数据块大小。

所述几何平均数算法的公式为：

其中，N为IO的数据块的个数，S_i为每个IO的数据块大小。

所述均方根平均数算法的公式为：

其中，N为IO的数据块的个数，S_i为每个IO的数据块大小。

(1s+0.8s+1.5s+0.4s+5s+2s+0.1s+0.6s+3s+4.4s)＝1.88s。

训练模块205，用于训练所述负载分类模型。

训练模块205训练所述负载分类模型的过程包括：

计算模块206，用于根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值。

具体的，所述计算模块206根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值可以包括：

恢复模块207，用于根据所述存储列表及当前统计周期对应的流控阈值，对发生故障的存储节点的当前统计周期内的数据执行恢复操作。

判断模块208，用于判断是否对所述发生故障的存储节点的所有统计周期内的数据执行恢复了操作。

当所述判断模块208确定未对所述发生故障的存储节点的所有统计周期内的数据执行恢复了操作时，返回执行上述识别模块204。

综上所述，本发明所述的自适应的数据恢复流控装置，同步模块201定期同步分布式存储系统中的各个存储节点的信息；获取模块203在侦测模块202侦测到有存储节点发生了故障时，获取发生故障的存储节点的存储列表；识别模块204识别上一个统计周期内用户应用的IO负载类别；计算模块206根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值；恢复模块207根据所述存储列表及当前统计周期对应的流控阈值，对所述发生故障的存储节点的当前统计周期内的数据执行恢复操作，直至对所述发生故障的存储节点的所有统计周期内的数据执行恢复操作。本发明能够通过将一个恢复周期分割成多个统计周期，在每一个统计周期内，根据上一个统计周期内用户应用的IO负载类别动态调整当前统计周期内对应的流控阈值，根据不同的流控阈值对当前统计周期内的数据进行恢复操作。在上一个统计周期内用户应用的IO负载强度高的时候，降低当前统计周期内故障恢复的流控阈值，从而达到降低故障恢复强度，保证业务IO负载的目的；在上一个统计周期内用户应用的IO负载强度低的时候，提高当前统计周期内故障恢复的流控阈值，从而达到提高故障恢复强度，尽快将分布式存储系统恢复到健康状态的目标。即本发明在提高大规模分布式存储系统数据修复效率、降低数据丢失风险的同时，能够避免对正常输入输出业务性能造成明显冲击，具有很好的流控效果。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，双屏设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

实施例三

图3为本发明实施例五提供的电子设备的示意图。

所述电子设备3包括：存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。

所述至少一个处理器32执行所述计算机程序33时实现上述自适应的数据恢复流控方法实施例中的步骤。

示例性的，所述计算机程序33可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器31中，并由所述至少一个处理器32执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序33在所述电子设备3中的执行过程。

所述电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图3仅仅是电子设备3的示例，并不构成对电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备3还可以包括输入输出设备、网络接入设备、总线等。

所述至少一个处理器32可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等，所述处理器32是所述电子设备3的控制中心，利用各种接口和线路连接整个电子设备3的各个部分。

所述存储器31可用于存储所述计算机程序33和/或模块/单元，所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元，以及调用存储在存储器31内的数据，实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中，应该理解到，所揭露的电子设备和方法，可以通过其它的方式实现。例如，以上所描述的电子设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。实施例中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神范围。

Claims

1.一种自适应的数据恢复流控方法，其特征在于，所述方法包括：

a)定期同步分布式存储系统中的各个存储节点的信息；

b)侦测是否有存储节点发生了故障；

d)识别上一个统计周期内用户应用的IO负载类别，所述识别上一个统计周期内用户应用的IO负载类别包括：获取所述上一个统计周期内用户应用的每一个IO的数据块大小，计算所述上一个统计周期内的IO的平均数据块大小；获取所述上一个统计周期内的每个数据块的传输时延，计算所述上一个统计周期内的IO的平均数据块时延；获取预先设置的IO的数据块大小的基准值及对应的数据块时延的基准值；采用公式

计算所述上一个统计周期内的IO负载强度，其中，X为所述上一个统计周期内的所述IO的平均数据块大小，Y为所述平均数据块时延，M为所述数据块大小的基准值，N为所述对应的数据块时延的基准值；根据所述上一个统计周期内的IO负载强度，利用预先训练好的负载分类模型确定所述上一个统计周期内的IO负载类别；

重复执行d)-f)，直至对所述发生故障的存储节点的所有统计周期内的数据执行了恢复操作。

2.如权利要求1所述的方法，其特征在于，所述根据所述上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值包括：

3.如权利要求1所述的方法，其特征在于，所述IO负载类别包括：高负载类别、正常负载类别、低负载类别，所述根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值包括：

4.如权利要求1所述的方法，其特征在于，所述侦测是否有存储节点发生故障包括：

5.如权利要求1至4中任意一项所述的方法，其特征在于，所述同步分布式存储系统中的各个存储节点的信息包括：

6.一种自适应的数据恢复流控装置，其特征在于，所述装置包括：

侦测模块，用于侦测是否有存储节点发生了故障；

识别模块，用于识别上一个统计周期内用户应用的IO负载类别，所述识别上一个统计周期内用户应用的IO负载类别包括：获取所述上一个统计周期内用户应用的每一个IO的数据块大小，计算所述上一个统计周期内的IO的平均数据块大小；获取所述上一个统计周期内的每个数据块的传输时延，计算所述上一个统计周期内的IO的平均数据块时延；获取预先设置的IO的数据块大小的基准值及对应的数据块时延的基准值；采用公式

7.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至5中任意一项所述的自适应的数据恢复流控方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的自适应的数据恢复流控方法。