CN116662081B

CN116662081B - 一种分布式存储冗余方法、装置、电子设备和存储介质

Info

Publication number: CN116662081B
Application number: CN202310960196.8A
Authority: CN
Inventors: 马怀旭
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2024-02-27
Anticipated expiration: 2043-08-01
Also published as: CN116662081A

Abstract

本发明实施例提供了一种分布式存储冗余方法、装置、电子设备和存储介质，涉及计算机系统及存储技术领域；包括：针对于分布式存储节点进行故障感知，确定异常节点；接收针对所述异常节点的写数据，所述写数据包括变更数据；存储所述变更数据，生成影子副本；响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复。在本发明实施例中，通过影子副本减少主动运维场景下和意外断电等场景下的数据恢复量，同时减少节点故障时对性能影响，提高分布式存储故障场景下的稳定性和性能。

Description

一种分布式存储冗余方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机系统及存储技术领域，特别是涉及一种分布式存储冗余方法、一种分布式存储冗余装置、一种电子设备和一种存储介质。

背景技术

传统存储因局限于机头、硬件配置等导致成本较高，效率较低，无法满足数据增进速度，互联网厂商、数据支撑厂商逐步转向高效智能的分布式存储技术，通过该技术解决该问题；分布式存储有以下几个方面特征：高性能、高可靠性、高可拓展性、透明性、自治性。如DHT（Distributed Hash Table，分布式哈希表）的分布式存储的核心为将数据进行分片切割，之后通过一定的算法计算出数据存放的位置，通过不同片段存放不同位置，从而发挥出分布式存储的性能；因为数据分片处理，存放在不同的主机上，因此任何一个数据块的丢失都可能造成整个数据的不可用。

但在DHT等分布式存储的数据恢复中，会带来大量的数据均衡和数据恢复，导致运维场景下IO（输入输出）影响范围比较大，降低了硬盘寿命。并且如果不快速进行数据均衡则会触发IO等待，等待到节点离线时间，会影响分布式存储故障场景下的稳定性和性能。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种分布式存储冗余方法、一种分布式存储冗余装置、一种电子设备和一种存储介质。

为了解决上述问题，在本发明的第一个方面，本发明实施例公开了一种分布式存储冗余方法，应用于分布式存储集群，所述方法包括：

针对于分布式存储节点进行故障感知，确定异常节点；

接收针对所述异常节点的写数据，所述写数据包括变更数据；

存储所述变更数据，生成影子副本；

响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复。

进一步地，在所述基于所述影子副本对所述异常节点进行数据恢复的步骤之后，所述方法还包括：

响应于所述异常节点的数据恢复成功，删除所述影子副本。

进一步地，在所述生成影子副本的步骤之后，所述方法还包括：

基于所述影子副本，下发所述写数据。

进一步地，所述针对于分布式存储节点进行故障感知，确定异常节点的步骤包括：

获取集群管理异常信息；

依据所述群管理异常信息确定所述异常节点。

读取磁盘插拔管理事件；

依据所述磁盘插拔设备管理事件，确定所述异常节点。

进一步地，所述方法还包括：

对所述异常节点进行标记，生成异常标记通知事件。

进一步地，在所述生成异常标记通知事件的步骤之后，所述方法还包括：

广播所述异常标记通知事件。

进一步地，所述接收针对所述异常节点的写数据的步骤包括：

响应于针对所述异常节点的写入请求，接收所述写入请求的写数据；

确定所述写数据的元数据段为所述变更数据。

进一步地，所述确定所述写数据的元数据段为所述变更数据的步骤包括：

依据所述写数据，确定补充字段和数据长度；

依据所述写数据的触发时间，确定数据补充时刻；

确定所述补充字段、所述数据长度和所述数据补充时刻为所述变更数据。

进一步地，在所述响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复的步骤之前，所述方法还包括：

监听所述分布式存储集群的节点接入事件和磁盘添加事件；

当所述节点接入事件或所述磁盘添加事件中包含所述异常节点时，确定所述异常节点重新上线。

进一步地，所述响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复的步骤包括：

响应于所述异常节点的重新上线，标记所述异常节点为节点上线状态；

在所述节点上线状态下，接收针对所述异常节点的影子副本；

基于所述影子副本对所述异常节点进行数据恢复。

进一步地，所述基于所述影子副本对所述异常节点进行数据恢复的步骤包括：

在所述异常节点中，上线第一副本；

将所述影子副本中的变更数据，记录到所述第一副本。

进一步地，在响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复的步骤之后，所述方法还包括：

在所述数据恢复期间，接收输入输出请求；

检索所述输入输出请求是否处于所述影子副本中；

当所述输入输出请求在所述影子副本中时，采用输入输出请求驱动所述影子副本中进行数据恢复，并在完成所述数据恢复后的异常节点进行所述输入输出请求的下发。

进一步地，所述方法还包括：

当所述输入输出请求不在所述影子副本中时，下发所述输入输出请求。

进一步地，在所述响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复的步骤之后，所述方法还包括：

读取所述第一副本中的数据补充时刻；

判断所述第一副本中的数据补充时刻与所述影子副本中的数据补充时刻是否一致；

当所述第一副本中的数据补充时刻与所述影子副本中的数据补充时刻一致时，确定所述数据恢复完成。

进一步地，所述存储所述变更数据，生成影子副本的步骤包括：

基于预设分布式存储规则，基于所述变更数据计算出第三个副本位置；

将所述变更数据存储至所述第三个副本位置生成所述影子副本。

进一步地，在所述响应于所述异常节点的数据恢复成功，删除所述影子副本的步骤之前，所述方法还包括：

所述异常节点的数据恢复成功时，生成数据恢复通知事件；

广播所述数据恢复通知事件。

在本发明的第二个方面，本发明实施例公开了一种分布式存储冗余装置，其特征在于，应用于分布式存储集群，所述装置包括：

异常感知模块，用于针对于分布式存储节点进行故障感知，确定异常节点；

第一接收模块，用于接收针对所述异常节点的写数据，所述写数据包括变更数据；

存储模块，用于存储所述变更数据，生成影子副本；

数据恢复模块，用于响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复。

在本发明的第三个方面，本发明实施例还公开了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的分布式存储冗余方法的步骤。

在本发明的第四个方面，本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的分布式存储冗余方法的步骤。

本发明实施例包括以下优点：

本发明实施例通过针对于分布式存储节点进行故障感知，确定异常节点；接收针对所述异常节点的写数据，所述写数据包括变更数据；存储所述变更数据，生成影子副本；响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复。通过故障探知手段提前发现异常节点，并且生成异常节点的影子副本，减少故障场景下的节点的数据迁移和恢复，同时保障客户的业务连续性；故障节点重新上线后通过影子副本进行数据恢复减少数据恢复量，同时保障了客户业务连续性和性能，提高整个分布式存储集群的稳定性。

附图说明

图1是本发明的一种分布式存储冗余方法实施例的步骤流程图；

图2是本发明的另一种分布式存储冗余方法实施例的步骤流程图；

图3是本发明的分布式存储节点的常规下发请求示意图；

图4是本发明的分布式存储节点基于影子副本下发请求示意图；

图5是本发明的分布式存储节点数据恢复示意图；

图6是本发明的一种分布式存储冗余装置实施例的结构框图；

图7是本发明实施例提供的一种电子设备的结构框图；

图8是本发明实施例提供的一种存储介质的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种分布式存储冗余方法实施例的步骤流程图，所述分布式存储冗余方法应用于分布式存储集群。分布式存储集群是指个存储节点基于DHT（Distributed Hash Table，分布式哈希表）方式进行连接通信的存储系统。

所述分布式存储冗余方法具体可以包括如下步骤：

步骤101，针对于分布式存储节点进行故障感知，确定异常节点。

在分布式存储集群运行期间，可以针对分布式存储集群中的每一个分布式存储节点进行故障感知，以在对分布式存储节点进行业务处理前，确定分布式存储节点的状态，确定出发生故障的异常节点。

步骤102，接收针对所述异常节点的写数据，所述写数据包括变更数据。

在确定异常节点后触发执行影子副本策略，接收针对所述异常节点的写数据。其中写数据中包括变更数据，如写数据为123，而在异常节点故障前已经存储了12，此时变更数据即为3。

步骤103，存储所述变更数据，生成影子副本。

然后将变更数据进行存储，生成影子副本，通过只存储变更数据，减少数据的存储量，在后续数据恢复时，也可以减少恢复的数据量。

步骤104，响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复。

当异常节点重新在分布式存储集群中重新上线时，可以响应于异常节点的重新上线，基于影子副本对异常节点进行数据恢复，以使异常节点可以恢复到最新的数据。

参照图2，示出了本发明的另一种分布式存储冗余方法实施例的步骤流程图，所述分布式存储冗余方法应用于分布式存储集群。所述分布式存储集群中的每个分布式存储节点队友有两个副本进行IO的下发。可以参照图3，分布式存储节点具有NodeA（副本名）和NodeB（副本名），对分布式存储节点的IO进行下发。

所述分布式存储冗余方法具体包括如下子步骤：

步骤201，针对于分布式存储节点进行故障感知，确定异常节点。

在本发明实施例中，可以针对分布式存储集群中的分布式存储节点在IO发送前，对其进行故障感知，确定出异常节点。

在本发明的一可选实施例中，所述针对于分布式存储节点进行故障感知，确定异常节点的步骤包括：获取集群管理异常信息；依据所述群管理异常信息确定所述异常节点。

在本发明实施例中，可以获取分布式存储集群中的集群管理异常信息，针对集群管理异常信息中记载的发生故障的分布式存储节点，确定异常节点。

在本发明的一可选实施例中，所述针对于分布式存储节点进行故障感知，确定异常节点的步骤包括：读取磁盘插拔管理事件；依据所述磁盘插拔设备管理事件，确定所述异常节点。

在本发明实施例中，可以获取磁盘插拔管理事件，如udev（设备管理）事件。针对磁盘插拔管理事件中无法工作的分布式存储节点，确定异常节点。

此外，当确定存在异常节点后，本发明实施例还可以对所述异常节点进行标记，生成异常标记通知事件。通过异常标记通知事件在分布式存储集群中对异常节点进行标记。

进一步地，所述方法还包括：

步骤S1，广播所述异常标记通知事件。

在本发明实施例中，分布式存储集群在集群中广播异常标记通知事件，以使分布式存储集群中除异常节点外的其余节点获知异常的节点。

步骤202，接收针对所述异常节点的写数据，所述写数据包括变更数据。

当有读请求需要发往异常节点时，可以先接收针对异常节点的写数据。其中写数据包括变更数据。

在本发明的一可选实施例中，所述接收针对所述异常节点的写数据的步骤包括：

子步骤S2021，响应于针对所述异常节点的写入请求，接收所述写入请求的写数据。

子步骤S2022，确定所述写数据的元数据段为所述变更数据。

在本发明实施例中，当存在针对于异常节点的写入请求时，可以响应于针对所述异常节点的写入请求，接收写入请求的写数据。并且将写数据中基于之前存储的数据补充部分的元数据段确定为变更数据。

具体地，所述确定所述写数据的元数据段为所述变更数据的步骤包括：依据所述写数据，确定补充字段和数据长度；依据所述写数据的触发时间，确定数据补充时刻；确定所述补充字段、所述数据长度和所述数据补充时刻为所述变更数据。

元数据段中记录了变更的数据的补充字段（offset）、数据长度（length）数据补充时刻（epoch），其中数据补充时刻以写数据的触发时间进行表示。通过该部分变更数据能够查询到异常时候真正落盘的数据，当恢复的时候即可通过变更的信息进行索引合并，减少数据恢复量，同时基于数据补充时刻记录最新的数据变更，从而避免因为其他节点断电，通过数据补充时刻可以查询出最新的IO数据信息，避免因为异常场景下的数据不一致问题。

步骤203，存储所述变更数据，生成影子副本。

将针对异常数据的变更数据进行存储，生成一个影子副本。

在本发明的一可选实施例中，所述存储所述变更数据，生成影子副本的步骤包括：

子步骤S2031，基于预设分布式存储规则，基于所述变更数据计算出第三个副本位置；

子步骤S2032，将所述变更数据存储至所述第三个副本位置生成所述影子副本。

在本发明实施例中，基于预设分布式存储规则，如DHT算法，在分布式存储节点故障前的计算法方式基于变更数据计算出第三个副本位置，隔离掉第一个副本数据发送，将变更数据存储至第三个副本位置中，生成影子副本。

在本发明的一可选实施例中，所述方法还包括：

步骤S2，基于所述影子副本，下发所述写数据。

在生成影子副本后，当需要异常节点下发写数据时，可以基于影子副本对写数据进行下发。可以参照图4，基于影子副本（NodeC），写数据中的变更数据进行下发。

在本发明一实施例中，在生成影子副本后还会持续检测异常节点是否会重新上线，所述方法还包括：

步骤S3，监听所述分布式存储集群的节点接入事件和磁盘添加事件；

步骤S4，当所述节点接入事件或所述磁盘添加事件中包含所述异常节点时，确定所述异常节点重新上线。

分布式存储集群中还会监听分布式存储集群的节点接入事件（如node in事件）和磁盘添加事件（如磁盘的udev中的add事件）。通过监听节点接入事件或磁盘添加事件中是否存在异常节点的标识等信息，当节点接入事件或磁盘添加事件中存在异常节点的标识等信息时，确定异常节点重新上线。

步骤204，响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复。

当异常节点的重新上线后，可以基于影子副本对异常节点进行数据恢复。

在本发明的一可选实施例中，所述响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复的步骤包括：

子步骤S2041，响应于所述异常节点的重新上线，标记所述异常节点为节点上线状态；

子步骤S2042，在所述节点上线状态下，接收针对所述异常节点的影子副本；

子步骤S2043，基于所述影子副本对所述异常节点进行数据恢复。

响应于异常节点的重新上线，先将异常节点标记为节点上线状态，然后再基于节点上线状态下，接收其他分布式存储节点针对异常节点发送的影子副本；根据全部的影子副本对异常节点进行数据恢复。

进一步地，所述基于所述影子副本对所述异常节点进行数据恢复的步骤包括：在所述异常节点中，上线第一副本；将所述影子副本中的变更数据，记录到所述第一副本。

在针对异常节点进行数据恢复时，可以首先上线第一副本，即在异常节点中上线一个完整的副本，即为第一副本。可以参照图5，将影子副本中的变更数据记录到第一副本，对到第一副本进行数据恢复，仅针对变更数据进行数据恢复，减少数据恢复量。

此外，所述方法还包括：在所述数据恢复期间，接收输入输出请求；检索所述输入输出请求是否处于所述影子副本中；当所述输入输出请求在所述影子副本中时，采用输入输出请求驱动所述影子副本中进行数据恢复，并在完成所述数据恢复后的异常节点进行所述输入输出请求的下发。

在数据恢复期间，可能会接收到新的IO请求即输入输出请求。可以收输入输出请求后检索是否在影子副本中，如果在影子副本中则通过输入输出请求驱动数据恢复，从完整的数据副本中进行数据恢复，恢复完成之后进行输入输出请求下发。

此外，所述方法还包括：当所述输入输出请求不在所述影子副本中时，下发所述输入输出请求。

当检索确定，输入输出请求不在影子副本中时，则直接进行输入输出请求的下发，提高IO的处理效率。

进一步地，在数据恢复期间，还会监测数据恢复是否完成。所述方法还包括：读取所述第一副本中的数据补充时刻；判断所述第一副本中的数据补充时刻与所述影子副本中的数据补充时刻是否一致；当所述第一副本中的数据补充时刻与所述影子副本中的数据补充时刻一致时，确定所述数据恢复完成。

影子副本中记录了最新数据补充时刻，在数据恢复期间，可以读取当前第一副本中的最新数据补充时刻，并基于第一副本中的数据补充时刻与影子副本中的数据补充时刻进行判断，判断两者是否相同，从而区分出叠加后最新的数据，从而保障数据的一致性，避免因为故障之后再次故障叠加，影响整个集群的数据一致性。在第一副本中的数据补充时刻与影子副本中的数据补充时刻一致时，确定数据恢复完成。否则，则数据恢复并未完成。

在本发明的一可选实施例中，所述方法还包括：所述异常节点的数据恢复成功时，生成数据恢复通知事件；广播所述数据恢复通知事件。

当异常节点的数据恢复成功时，生成对应的数据恢复通知事件，并将数据恢复通知事件在分布式集群中进行广播。

步骤205，响应于所述异常节点的数据恢复成功，删除所述影子副本。

当接收到数据恢复通知事件，即可确定异常节点的数据恢复成功，响应于异常节点的数据恢复成功，删除影子副本，减少影子副本的数据占用量。

本发明实施例通过针对于分布式存储节点进行故障感知，确定异常节点；接收针对所述异常节点的写数据，所述写数据包括变更数据；存储所述变更数据，生成影子副本；响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复；响应于所述异常节点的数据恢复成功，删除所述影子副本。通过故障探知手段提前发现异常节点，并且生成异常节点的影子副本，减少故障场景下的节点的数据迁移和恢复，同时保障客户的业务连续性；故障节点重新上线后通过影子副本进行数据恢复减少数据恢复量，同时保障了客户业务连续性和性能，提高整个分布式存储集群的稳定性；并且在完成数据恢复后，将影子副本进行删除，减少影子副本对存储的占用，提供存储系统的利用率。

为了使本领域技术人员可以更清楚本发明实施的实施过程，以下举出一示例进行说明：

1）建立故障感知模型，通过集群管理异常信息、磁盘插拔的udev事件等提前感知节点或者硬盘的异常，提前进行整个集群的异常标记，减少IO往异常节点发送的IO等待和重试时间，提高IO的及时性。

2)当感知节点或者磁盘异常的时候触发影子副本机制，将写IO转化为正常的副本的IO和影子副本的IO进行IO下发，在保障一定的副本冗余场景下进行IO下发，保障IO的流畅性；因不变更副本位置计算的DHT算法，因此不触发数据恢复，减少节点间的数据交互，提高集群的稳定性

3)当节点重新上线之后进行集群事件广播，收到广播事件的节点进行内存索引查看本节点关于异常节点的影子副本信息发送至故障恢复节点，集群收到节点重新上线之后不在进行影子副本IO发送，变更为正常的副本数据转发；故障恢复节点根据影子副本记录的变更数据进行数据恢复，当IO到未恢复的数据则通过影子副本信息进行IO驱动数据恢复减少IO等待时间，提高IO速度，当所有的影子副本数据处理完成后则进行集群广播，清理掉关于该节点的影子副本信息，减少集群数据占用。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明的一种分布式存储冗余装置实施例的结构框图，所述分布式存储冗余装置应用于分布式存储集群，所述分布式存储冗余装置具体可以包括如下模块：

异常感知模块601，用于针对于分布式存储节点进行故障感知，确定异常节点；

第一接收模块602，用于接收针对所述异常节点的写数据，所述写数据包括变更数据；

存储模块603，用于存储所述变更数据，生成影子副本；

数据恢复模块604，用于响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复。

在本发明的一可选实施例中，所述装置还包括：

删除模块，用于响应于所述异常节点的数据恢复成功，删除所述影子副本

在本发明的一可选实施例中，所述装置还包括：

第一下发模块，用于基于所述影子副本，下发所述写数据。

在本发明的一可选实施例中，所述异常感知模块601包括：

第一获取子模块，用于获取集群管理异常信息；

第一异常节点确定子模块，用于依据所述群管理异常信息确定所述异常节点。

在本发明的一可选实施例中，所述异常感知模块601包括：

第二获取子模块，用于读取磁盘插拔管理事件；

第二异常节点确定子模块，用于依据所述磁盘插拔设备管理事件，确定所述异常节点。

在本发明的一可选实施例中，所述装置还包括：

第一标记模块，用于对所述异常节点进行标记，生成异常标记通知事件。

在本发明的一可选实施例中，所述装置还包括：

第一广播模块，用于广播所述异常标记通知事件。

在本发明的一可选实施例中，所述第一接收模块602包括：

写入请求子模块，用于响应于针对所述异常节点的写入请求，接收所述写入请求的写数据；

变更数据确定子模块，用于确定所述写数据的元数据段为所述变更数据。

在本发明的一可选实施例中，所述变更数据确定子模块包括：

第一写数据单元，用于依据所述写数据，确定补充字段和数据长度；

第二写数据单元，用于依据所述写数据的触发时间，确定数据补充时刻；

变更数据确定单元，用于确定所述补充字段、所述数据长度和所述数据补充时刻为所述变更数据。

在本发明的一可选实施例中，所述装置还包括：

监听模块，用于监听所述分布式存储集群的节点接入事件和磁盘添加事件；

上线模块，用于当所述节点接入事件或所述磁盘添加事件中包含所述异常节点时，确定所述异常节点重新上线。

在本发明的一可选实施例中，所述数据恢复模块604包括：

上线响应子模块，用于响应于所述异常节点的重新上线，标记所述异常节点为节点上线状态；

影子副本接收子模块，用于在所述节点上线状态下，接收针对所述异常节点的影子副本；

数据恢复子模块，用于基于所述影子副本对所述异常节点进行数据恢复。

在本发明的一可选实施例中，所述数据恢复子模块包括：

第一副本上线单元，用于在所述异常节点中，上线第一副本；

记录单元，用于将所述影子副本中的变更数据，记录到所述第一副本。

在本发明的一可选实施例中，所述装置还包括：

第二接收模块，用于在所述数据恢复期间，接收输入输出请求；

检索模块，用于检索所述输入输出请求是否处于所述影子副本中；

影子副本驱动模块，用于当所述输入输出请求在所述影子副本中时，采用输入输出请求驱动所述影子副本中进行数据恢复，并在完成所述数据恢复后的异常节点进行所述输入输出请求的下发。

在本发明的一可选实施例中，所述装置还包括：

下发模块，用于当所述输入输出请求不在所述影子副本中时，下发所述输入输出请求。

在本发明的一可选实施例中，所述装置还包括：

时刻读取模块，用于读取所述第一副本中的数据补充时刻；

判断模块用于判断所述第一副本中的数据补充时刻与所述影子副本中的数据补充时刻是否一致；

数据恢复完成模块，用于当所述第一副本中的数据补充时刻与所述影子副本中的数据补充时刻一致时，确定所述数据恢复完成。

在本发明的一可选实施例中，所述存储模块603包括：

副本位置计算子模块，用于基于预设分布式存储规则，基于所述变更数据计算出第三个副本位置；

存储子模块，用于将所述变更数据存储至所述第三个副本位置生成所述影子副本。

在本发明的一可选实施例中，所述装置还包括：

数据恢复通知事件生成模块，用于所述异常节点的数据恢复成功时，生成数据恢复通知事件；

第二广播模块，用于广播所述数据恢复通知事件。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图7，本发明实施例还提供了一种电子设备，包括：

处理器701和存储介质702，所述存储介质702存储有所述处理器701可执行的计算机程序，当电子设备运行时，所述处理器701执行所述计算机程序，以执行如本发明实施例任一项所述的分布式存储冗余方法。所述分布式存储冗余方法应用于分布式存储集群，所述分布式存储冗余方法包括：

针对于分布式存储节点进行故障感知，确定异常节点；

存储所述变更数据，生成影子副本；

响应于所述异常节点的数据恢复成功，删除所述影子副本。

基于所述影子副本，下发所述写数据。

获取集群管理异常信息；

依据所述群管理异常信息确定所述异常节点。

读取磁盘插拔管理事件；

依据所述磁盘插拔设备管理事件，确定所述异常节点。

进一步地，所述方法还包括：

对所述异常节点进行标记，生成异常标记通知事件。

广播所述异常标记通知事件。

确定所述写数据的元数据段为所述变更数据。

依据所述写数据，确定补充字段和数据长度；

依据所述写数据的触发时间，确定数据补充时刻；

监听所述分布式存储集群的节点接入事件和磁盘添加事件；

基于所述影子副本对所述异常节点进行数据恢复。

在所述异常节点中，上线第一副本；

将所述影子副本中的变更数据，记录到所述第一副本。

在所述数据恢复期间，接收输入输出请求；

检索所述输入输出请求是否处于所述影子副本中；

进一步地，所述方法还包括：

读取所述第一副本中的数据补充时刻；

所述异常节点的数据恢复成功时，生成数据恢复通知事件；

广播所述数据恢复通知事件。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

参照图8，本发明实施例还提供了一种计算机可读存储介质801，所述存储介质801上存储有计算机程序，所述计算机程序被处理器运行时执行如本发明实施例任一项所述的分布式存储冗余方法。所述分布式存储冗余方法应用于分布式存储集群，所述分布式存储冗余方法包括：

针对于分布式存储节点进行故障感知，确定异常节点；

存储所述变更数据，生成影子副本；

响应于所述异常节点的数据恢复成功，删除所述影子副本。

基于所述影子副本，下发所述写数据。

获取集群管理异常信息；

依据所述群管理异常信息确定所述异常节点。

读取磁盘插拔管理事件；

依据所述磁盘插拔设备管理事件，确定所述异常节点。

进一步地，所述方法还包括：

对所述异常节点进行标记，生成异常标记通知事件。

广播所述异常标记通知事件。

确定所述写数据的元数据段为所述变更数据。

依据所述写数据，确定补充字段和数据长度；

依据所述写数据的触发时间，确定数据补充时刻；

监听所述分布式存储集群的节点接入事件和磁盘添加事件；

基于所述影子副本对所述异常节点进行数据恢复。

在所述异常节点中，上线第一副本；

将所述影子副本中的变更数据，记录到所述第一副本。

在所述数据恢复期间，接收输入输出请求；

检索所述输入输出请求是否处于所述影子副本中；

进一步地，所述方法还包括：

读取所述第一副本中的数据补充时刻；

所述异常节点的数据恢复成功时，生成数据恢复通知事件；

广播所述数据恢复通知事件。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种分布式存储冗余方法、装置、电子设备和存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种分布式存储冗余方法，其特征在于，应用于分布式存储集群，所述分布式存储集群为存储节点基于分布式哈希表方式进行连接通信的存储系统，所述存储节点有两个副本进行输入输出的下发，所述方法包括：

针对于分布式存储节点进行故障感知，确定异常节点；

存储所述变更数据，生成影子副本，所述影子副本基于所述变更数据计算出第三个副本位置，隔离异常节点两个副本中的一个，将所述变更数据存储至第三个副本位置中生成；

响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复；

其中，所述异常节点通过对集群管理异常信息或磁盘插拔管理事件确定；所述变更数据通过补充字段、数据长度和数据补充时刻确定。

2.根据权利要求1所述的方法，其特征在于，在所述基于所述影子副本对所述异常节点进行数据恢复的步骤之后，所述方法还包括：

响应于所述异常节点的数据恢复成功，删除所述影子副本。

3.根据权利要求1所述的方法，其特征在于，在所述生成影子副本的步骤之后，所述方法还包括：

基于所述影子副本，下发所述写数据。

4.根据权利要求2所述的方法，其特征在于，所述针对于分布式存储节点进行故障感知，确定异常节点的步骤包括：

获取所述集群管理异常信息；

依据所述群管理异常信息确定所述异常节点。

5.根据权利要求2所述的方法，其特征在于，所述针对于分布式存储节点进行故障感知，确定异常节点的步骤包括：

读取所述磁盘插拔管理事件；

依据所述磁盘插拔管理事件，确定所述异常节点。

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

对所述异常节点进行标记，生成异常标记通知事件。

7.根据权利要求6所述的方法，其特征在于，在所述生成异常标记通知事件的步骤之后，所述方法还包括：

广播所述异常标记通知事件。

8.根据权利要求2所述的方法，其特征在于，所述接收针对所述异常节点的写数据的步骤包括：

确定所述写数据的元数据段为所述变更数据。

9.根据权利要求8所述的方法，其特征在于，所述确定所述写数据的元数据段为所述变更数据的步骤包括：

依据所述写数据，确定补充字段和数据长度；

依据所述写数据的触发时间，确定数据补充时刻；

10.根据权利要求9所述的方法，其特征在于，在所述响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复的步骤之前，所述方法还包括：

监听所述分布式存储集群的节点接入事件和磁盘添加事件；

11.根据权利要求10所述的方法，其特征在于，所述响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复的步骤包括：

基于所述影子副本对所述异常节点进行数据恢复。

12.根据权利要求11所述的方法，其特征在于，所述基于所述影子副本对所述异常节点进行数据恢复的步骤包括：

在所述异常节点中，上线第一副本；

将所述影子副本中的变更数据，记录到所述第一副本。

13.根据权利要求11所述的方法，其特征在于，在响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复的步骤之后，所述方法还包括：

在所述数据恢复期间，接收输入输出请求；

检索所述输入输出请求是否处于所述影子副本中；

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

15.根据权利要求12所述的方法，其特征在于，在所述响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复的步骤之后，所述方法还包括：

读取所述第一副本中的数据补充时刻；

16.根据权利要求1所述的方法，其特征在于，所述存储所述变更数据，生成影子副本的步骤包括：

17.根据权利要求2所述的方法，其特征在于，在所述响应于所述异常节点的数据恢复成功，删除所述影子副本的步骤之前，所述方法还包括：

所述异常节点的数据恢复成功时，生成数据恢复通知事件；

广播所述数据恢复通知事件。

18.一种分布式存储冗余装置，其特征在于，应用于分布式存储集群，所述分布式存储集群为存储节点基于分布式哈希表方式进行连接通信的存储系统，所述存储节点有两个副本进行输入输出的下发，所述装置包括：

存储模块，用于存储所述变更数据，生成影子副本，所述影子副本基于所述变更数据计算出第三个副本位置，隔离异常节点两个副本中的一个，将所述变更数据存储至第三个副本位置中生成；

数据恢复模块，用于响应于所述异常节点的重新上线，基于所述影子副本对所述异常节点进行数据恢复；

19.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至17中任一项所述的分布式存储冗余方法的步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至17中任一项所述的分布式存储冗余方法的步骤。