CN111045853A

CN111045853A - 一种提高纠删码恢复速度的方法、装置及后台服务器

Info

Publication number: CN111045853A
Application number: CN201911038779.5A
Authority: CN
Inventors: 张道龙
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-04-21

Abstract

本发明公开了一种提高纠删码恢复速度的方法、装置及后台服务器，该方法包括：对数据进行分割及冗余处理，生成多个第一数据块和第一校验块；将第一数据块划分为多个逻辑组，对每个逻辑组内的第一数据块进行冗余处理，得到至少一个第二校验块；将每个逻辑组内的第一数据块进行再分割处理后得到多个第二数据块及第二校验块存储至不同的节点上并形成配置文件；根据配置文件查找故障节点所属的逻辑组，控制从逻辑组内随机选取的节点拷贝该逻辑组内各节点上的第二数据块和第二校验块对故障节点进行组内数据恢复；本发明进行数据恢复时所需数据量更少，无需从全部节点拷贝数据，整个恢复过程占用的时间更短，进行数据传输时占用的带宽和资源也更少。

Description

一种提高纠删码恢复速度的方法、装置及后台服务器

技术领域

本发明属于数据存储与恢复技术领域，更具体地，涉及一种提高纠删码恢复速度的方法、装置及后台服务器。

背景技术

Ceph是一个专注于分布式的、弹性可扩展的、高可靠的、性能优异的存储系统平台，可用于为虚拟机提供块存储方案或通过FUSE提供常规的文件系统。Ceph是个高度可配置的系统，管理者可以控制系统的各个方面，它提供了一个命令行界面用于监视和控制其存储集群。Ceph也包含鉴证和授权功能，可兼容多种存储网关接口，如OpenStack Swift和Amazon S3。

目前Ceph支持用副本策略或者纠删码保证数据的可靠性，副本策略和纠删码是存储领域常见的两种数据冗余技术。副本是将数据复制多份，并将其存储在不同的位置，比如磁盘、存储节点或者其它地理位置。纠删码(erasure coding，EC)是将数据分割成n个片段，原始的数据元素通过一定的计算，得到m块冗余元素(校验块)，并将m+n块数据存储在不同的位置，比如磁盘、存储节点或者其它地理位置。相比于副本策略，纠删码具有更高的磁盘利用率。

然而随着时间迁移，Ceph存储的数据会越来越多，如果出现节点或者机器故障将有大量数据需要恢复，会占用大量的带宽和资源，Ceph中的数据存储节点越多，带宽和资源的占用情况越严重，这样可能造成Ceph稳定性下降，甚至可能影响上层的服务。

当Ceph中的某个节点出现故障，造成数据丢失或者不可访问，会触发Ceph数据恢复，负责数据恢复的节点需要从所有存储数据块的节点上拷贝数据，假如Ceph中共有100个数据存储节点，则负责数据恢复的节点需要拷贝其它98个数据存储节点上存储的数据片段，经过大量的数据计算后对故障节点的数据进行恢复；如果节点更多的话，需要从更多的节点拷贝数据；这种数据恢复方法存在以下缺陷：一是拷贝大量数据需要占用网络带宽，会影响Ceph的其他服务功能；二是会占用负责恢复数据的节点大量的系统资源，并且数据恢复的时间比较长。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种提高纠删码恢复速度的方法、装置及后台服务器，其目的在于解决现有的数据恢复方式存在的数据恢复的时间长，并且占用大量的带宽和资源，造成Ceph稳定性下降的问题。

为实现上述目的，按照本发明的第一个方面，提供了一种提高纠删码恢复速度的方法，该方法包括以下步骤：

S1：根据预置的纠删码策略以及存储节点的数量对待存储数据进行分割及冗余处理，生成多个第一数据块和第一校验块；

S2：将多个所述第一数据块划分为至少两个逻辑组，分别对每个所述逻辑组内的多个第一数据块进行冗余处理，得到至少一个第二校验块；

S3：对每个逻辑组内的多个第一数据块进行再分割处理，得到多个第二数据块，且所述第二数据块与第二校验块的总量与第一数据块的数量相等；

S4：分别将各逻辑组内的多个第二数据块和第二校验块分布存储至不同的存储节点上，并形成记录所述逻辑组与其包含的存储节点之间的对应关系的配置文件；

S5：根据所述配置文件查找出现故障的存储节点所属的逻辑组，当满足组内恢复条件时，控制从所述逻辑组内随机选取的一个存储节点拷贝该逻辑组内各存储节点上的第二数据块和第二校验块对故障存储节点进行组内数据恢复。

优选的，上述提高纠删码恢复速度的方法中，当不满足组内恢复条件时，控制随机选取的一个存储节点拷贝所有逻辑组内的各存储节点上的第二数据块和第一校验块对故障存储节点进行全局数据恢复。

优选的，上述提高纠删码恢复速度的方法中，所述组内恢复条件具体为：当故障节点的数量不大于对应逻辑组内的第二校验块的数量时，可进行组内数据恢复。

优选的，上述提高纠删码恢复速度的方法中，所述逻辑组的个数与所有存储节点连接的交换机的数量相等，连接同一个交换机的多个存储节点用来存储同一个逻辑组内的第二数据块和第二校验块。

优选的，上述提高纠删码恢复速度的方法中，当各逻辑组内存储第二校验块的节点故障时，控制随机选取的一个存储节点拷贝该逻辑组内各存储节点上的第二数据块并进行冗余处理，生成第二校验块对故障节点进行组内数据恢复。

优选的，上述提高纠删码恢复速度的方法中，所述存储节点的随机选取方法采用分布式一致性算法实现。

按照本发明的第二个方面，还提供了一种提高纠删码恢复速度的装置，该装置包括：

第一处理模块，用于根据预置的纠删码策略以及存储节点的数量对待存储数据进行分割及冗余处理，生成多个第一数据块和第一校验块；

第二处理模块，用于将多个所述第一数据块划分为至少两个逻辑组，分别对每个所述逻辑组内的多个第一数据块进行冗余处理，得到至少一个第二校验块；

第三处理模块，用于对每个逻辑组内的多个第一数据块进行再分割处理，得到多个第二数据块，且所述第二数据块与第二校验块的总量与第一数据块的数量相等；

存储模块，用于分别将各逻辑组内的多个第二数据块和第二校验块分布存储至不同的存储节点上，并形成记录所述逻辑组与其包含的存储节点之间的对应关系的配置文件；

恢复模块，用于根据所述配置文件查找出现故障的存储节点所属的逻辑组，当满足组内恢复条件时，控制从所述逻辑组内随机选取的一个存储节点拷贝该逻辑组内各存储节点上的第二数据块和第二校验块对故障存储节点进行组内数据恢复。

优选的，上述提高纠删码恢复速度的装置，当不满足组内恢复条件时，所述恢复模块控制随机选取的一个存储节点拷贝所有逻辑组内的各存储节点上的第二数据块和第一校验块对故障存储节点进行全局数据恢复。

优选的，上述提高纠删码恢复速度的装置，所述组内恢复条件具体为：当故障节点的数量不大于对应逻辑组内的第二校验块的数量时，可进行组内数据恢复。

优选的，上述提高纠删码恢复速度的装置，所述逻辑组的个数与所有存储节点连接的交换机的数量相等，所述存储模块将同一个逻辑组内的第二数据块和第二校验块分布存储在连接同一个交换机的多个存储节点中。

优选的，上述提高纠删码恢复速度的装置，当各逻辑组内存储第二校验块的节点故障时，所述恢复模块控制随机选取的一个存储节点拷贝该逻辑组内各存储节点上的第二数据块并进行冗余处理，生成第二校验块对故障节点进行组内数据恢复。

优选的，上述提高纠删码恢复速度的装置，所述恢复模块采用分布式一致性算法从逻辑组内随机选取一个用于数据恢复的存储节点。

按照本发明的第三个方面，还提供了一种后台服务器，其包括至少一个处理单元、以及至少一个存储单元，

其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行上述任一项所述的提高纠删码恢复速度的方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的提高纠删码恢复速度的方法、装置及后台服务器，将多个第一数据块划分为至少两个逻辑组并在每一个逻辑组中生成新的校验块；当出现故障节点时，首先定位故障节点所属的逻辑组，当满足组内恢复条件时，即可在单个逻辑组内进行数据恢复；进行数据恢复时所需的数据量更少，无需从所有的存储节点拷贝数据，因此整个恢复过程占用的时间更短，进行数据传输时占用的带宽和资源也更少，不会影响Ceph的其他服务功能；对于负责进行数据恢复的存储节点来说，由于恢复过程中需要计算的数据量减小，因此恢复过程对该存储节点的影响不大，不会占用过多资源。

附图说明

图1是本发明实施例提供的提高纠删码恢复速度的方法的流程图；

图2是本发明实施例提供的Ceph纠删码(6+2)数据恢复示意图；

图3是本发明实施例提供的提高纠删码恢复速度的装置的逻辑框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

图1是本实施例提供的一种提高纠删码恢复速度的方法的流程图，参见图1，该方法包括以下步骤：

本实施例以十个存储节点、纠删码策略(8+2)为例进行说明，图2是本实施例提供的Ceph纠删码(8+2)数据恢复示意图；参见图2，首先按照Ceph定义的纠删码策略(8+2)将原始文件内容切分为8个第一数据块，其文件分割编号为1-8；然后对这8个第一数据块进行冗余计算处理，得到2个第一校验块，文件分割编号为9-10。

存储节点是Ceph存储的文件最小单位，如果该文件最小单位为磁盘，则该存储节点为磁盘，如果磁盘能被划分为更小的对象块，则该存储节点为对象块，具体不做限定。

S2：将多个第一数据块划分为至少两个逻辑组，分别对每个逻辑组内的多个第一数据块进行冗余处理，得到至少一个第二校验块；

本实施例中，将8个第一数据块划分为两个独立的逻辑组1和逻辑组2，其中，逻辑组1包括文件分割编号为1-4的四个第一数据块，逻辑组2包括文件分割编号为5-8的四个第一数据块。

逻辑组的数量不局限于两个，具体的划分规则会受整个存储节点的分布的影响，同一逻辑组里的数据块优选存放在位于同一个交换机下的存储节点中，以减少跨交换机的数据流量；比如节点100个，分布在4个交换机之下，那么逻辑组可以划分为4个，连接同一个交换机的多个节点用来存储同一个逻辑组内的多个数据块。

逻辑组划分完成之后，分别对每个逻辑组内的第一数据块进行冗余处理；以逻辑组1为例进行说明，对逻辑组1内的四个第一数据块进行冗余处理，生成对应的第二校验块；该第二校验块可以是一个或多个，本实施例不作具体限定；当第二校验块的数量是多个时，该第二校验块的数量不大于该逻辑组内第一数据块总量的一半；但是由于校验块的数量过大将会占用数据块的存放空间，影响存储性能，因此第二校验块的数量不宜过多，本实施例优选将第一校验块的数量设置为一个，即每个逻辑组内仅生成一个第二校验块；对逻辑组2进行冗余处理的方式同逻辑组1，不再赘述。

本实施例中，逻辑组1内共有四个第一数据块，根据这四个第一数据块生成第二校验块之后，需要对四个第一数据块进行再分割处理；当第二校验块为一个时，将四个第一数据块进行再分割为三个第二数据块；当第二校验块为两个时，将四个第一数据块进行再分割为两个第二数据块；再分割后形成的第二数据块与第二校验块的总个数与第一数据块的数量相等。

参见图2，将每个逻辑组内的第二数据块、第二校验块以及步骤S1中生成的第一校验块分别存储在多个存储节点上；图2中，节点1-4存储逻辑组1中的3个第二数据块和1个第二校验块；节点5-8存储逻辑组2中的3个第二数据块和1个第二校验块；节点9～10上存储第一校验块。然后生成对应的配置文件，该配置文件用于记录逻辑组的划分情况以及各逻辑组内分别包含的存储节点。

S5：根据配置文件查找出现故障的存储节点所属的逻辑组并从逻辑组内随机选取一个存储节点；当满足组内恢复条件时，控制选取的存储节点拷贝该逻辑组内各存储节点上的第二数据块和第二校验块对故障存储节点进行数据恢复；

当不满足组内恢复条件时，控制选取的存储节点拷贝所有逻辑组内的各存储节点上的第二数据块和第一校验块对故障存储节点进行全局数据恢复；数据恢复完成后，将恢复出来的数据拷贝到故障节点中。

当检测到有存储节点发生故障，出现数据丢失现象时，首先根据步骤S4中构建的配置文件对故障节点进行定位，查找故障节点所属的逻辑组；然后从该逻辑组内剩余的正常存储节点中随机选取一个存储节点负责数据恢复工作，存储节点的随机选取方法可采用Raft算法或其它分布式一致性算法实现；图2中，当逻辑组1中的节点3发生故障后，随机选取节点1作为数据恢复节点。

然后判断出现故障节点的逻辑组是否满足组内恢复条件，如果满足，则控制随机选取的存储节点拷贝该逻辑组内各存储节点上的第二数据块和第二校验块对故障存储节点进行数据恢复；图2中，首先判断逻辑组1是否满足组内恢复条件，如果满足，则控制节点1从剩余的正常节点2、节点4中拷贝第二数据块和第二校验块，对故障的节点3进行组内数据恢复。假如故障节点是存储第二校验块的节点4，则节点1从节点2、3中拷贝第二数据块并进行冗余处理，再次生成第二校验块对故障的节点4进行组内数据恢复即可。

如果不满足组内恢复条件，则控制节点1从剩余的正常节点2、以及逻辑组2中的节点5、节点6、节点7中拷贝第二数据块，并从节点9、节点10中拷贝第一校验块，对故障的节点3进行全局数据恢复。

节点1完成数据恢复后，将恢复出来的数据拷贝到故障的节点3中。

本实施例中所述的组内恢复条件具体为：当故障节点的数量不大于对应逻辑组内的第二校验块的数量时，可进行组内恢复；本实施例中，逻辑组1内的第二校验块为1个，那么当逻辑组1内的故障节点为1个时，可进行组内恢复；如果故障节点数量大于1个，则无法进行组内恢复，需要进行全局数据恢复才能修复该逻辑组内的多个故障节点。

本实施例中，当一个节点上数据丢失后会触发数据修复过程，该数据修复过程有两个层面：一个基于逻辑组内的数据恢复，一个是基于正常的纠删码数据恢复；在数据丢失后，首先会判断是否可以在逻辑组内可以恢复数据，判断依据是丢失数据的节点数量是否超过逻辑组内的最小恢复数据要求，该最小恢复数据要求即时逻辑组内的第二校验块的数量。如果可以就在逻辑组内进行数据恢复，否则触发正常的纠删码数据恢复，进行全局数据恢复。

采用本实施例提供的方法，进行数据恢复时所需的数据量更少，无需从所有的存储节点拷贝数据，因此整个恢复过程占用的时间更短，进行数据传输时占用的带宽和资源也更少，不会影响Ceph的其他服务功能；对于负责进行数据恢复的存储节点来说，由于恢复过程中需要计算的数据量减小，因此恢复过程对该存储节点的影响不大，不会占用过多资源。

实施例二

本实施例提供了一种提高纠删码恢复速度的装置，该装置可以采用软件和/或硬件的方式实现，并可集成在电子设备上。

参见图3所示，该装置包括第一处理模块、第二处理模块、第三处理模块、存储模块和恢复模块，其中：

第一处理模块用于根据预置的纠删码策略以及存储节点的数量对待存储数据进行分割及冗余处理，生成多个第一数据块和第一校验块。

第二处理模块用于将多个第一数据块划分为至少两个逻辑组，分别对每个逻辑组内的多个第一数据块进行冗余处理，得到至少一个第二校验块；

逻辑组的数量不局限于两个，具体的划分规则会受整个存储节点的分布的影响，同一逻辑组里的数据块优选存放在位于同一个交换机下的存储节点中，以减少跨交换机的数据流量；比如节点100个，分布在4个交换机之下，那么逻辑组可以划分为4个，连接同一个交换机的多个节点用来存储同一个逻辑组内的多个数据块；

逻辑组划分完成之后，分别对每个逻辑组内的第一数据块进行冗余处理，生成对应的第二校验块；该第二校验块可以是一个或多个，本实施例不作具体限定；当第二校验块的数量是多个时，该第二校验块的数量不大于该逻辑组内第一数据块总量的一半；但是由于校验块的数量过大将会占用数据块的存放空间，影响存储性能，因此第二校验块的数量不宜过多，本实施例优选将第一校验块的数量设置为一个，即每个逻辑组内仅生成一个第二校验块。

第三处理模块用于对每个逻辑组内的多个第一数据块进行再分割处理，得到多个第二数据块，且所述第二数据块与第二校验块的总量与第一数据块的数量相等。

存储模块用于分别将各逻辑组内的多个第二数据块和第二校验块分布存储至不同的存储节点上，并形成记录所述逻辑组与其包含的存储节点之间的对应关系的配置文件。

恢复模块用于根据配置文件查找出现故障的存储节点所属的逻辑组并从逻辑组内随机选取一个存储节点；当满足组内恢复条件时，控制选取的存储节点拷贝该逻辑组内各存储节点上的第二数据块和第二校验块对故障存储节点进行数据恢复；

当检测到有存储节点发生故障，出现数据丢失现象时，恢复模块首先根据存储模块构建的配置文件对故障节点进行定位，查找故障节点所属的逻辑组；然后从该逻辑组内剩余的正常存储节点中随机选取一个存储节点负责数据恢复工作，存储节点的随机选取方法可采用Raft算法或其它分布式一致性算法实现；

然后，恢复模块判断出现故障节点的逻辑组是否满足组内恢复条件，如果满足，则控制随机选取的存储节点拷贝该逻辑组内各存储节点上的第二数据块和第二校验块对故障存储节点进行数据恢复；假如故障节点是用于存储第二校验块的节点，则恢复模块控制随机选取的存储节点从逻辑组内的正常节点中拷贝第二数据块并进行冗余处理，生成第二校验块对故障节点进行组内数据恢复即可。

当不满足组内恢复条件时，恢复模块控制选取的存储节点拷贝所有逻辑组内的各存储节点上的第二数据块和第一校验块对故障存储节点进行全局数据恢复。

最后，恢复模块将恢复出来的数据拷贝到故障节点中。

实施例三

本实施例还提供了一种后台服务器，其包括至少一个处理器、以及至少一个存储器，其中，存储器中存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行实施例一中提高纠删码恢复速度的方法的步骤，具体步骤参见实施例一，此处不再赘述；本实施例中，处理器和存储器的类型不作具体限制，例如：处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等；存储器可以是易失性存储器、非易失性存储器或者它们的组合等。

该后台服务器也可以与一个或多个外部设备(如键盘、指向终端、显示器等)通信，还可与一个或者多个使得用户能与该后台服务器交互的终端通信，和/或与使得该后台服务器能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，后台服务器还可以通过网络适配器与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提高纠删码恢复速度的方法，其特征在于，包括：

S1：根据预置的纠删码策略以及节点数量对数据进行分割及冗余处理，生成多个第一数据块和第一校验块；

S4：分别将各逻辑组内的多个第二数据块和第二校验块分布存储至不同的节点上，并形成记录所述逻辑组与其包含的节点之间的对应关系的配置文件；

S5：根据所述配置文件查找故障节点所属的逻辑组，当满足组内恢复条件时，控制从所述逻辑组内随机选取的一个节点拷贝该逻辑组内各节点上的第二数据块和第二校验块对故障节点进行组内数据恢复。

2.如权利要求1所述的方法，其特征在于，当不满足组内恢复条件时，控制随机选取的一个节点拷贝所有逻辑组内的各存储节点上的第二数据块和第一校验块对故障节点进行全局数据恢复。

3.如权利要求1或2所述的方法，其特征在于，所述组内恢复条件具体为：当故障节点的数量不大于对应逻辑组内的第二校验块的数量时，可进行组内数据恢复。

4.如权利要求1所述的方法，其特征在于，所述逻辑组的个数与所有节点连接的交换机的数量相等，连接同一个交换机的多个节点用来存储同一个逻辑组内的第二数据块和第二校验块。

5.如权利要求1所述的方法，其特征在于，当各逻辑组内存储第二校验块的节点故障时，控制随机选取的一个节点拷贝该逻辑组内各节点上的第二数据块并进行冗余处理，生成第二校验块对故障节点进行组内数据恢复。

6.如权利要求1所述的方法，其特征在于，所述节点的随机选取方法采用分布式一致性算法实现。

7.一种提高纠删码恢复速度的装置，其特征在于，包括：

第一处理模块，用于根据预置的纠删码策略以及节点数量对数据进行分割及冗余处理，生成多个第一数据块和第一校验块；

存储模块，用于分别将各逻辑组内的多个第二数据块和第二校验块分布存储至不同的节点上，并形成记录所述逻辑组与其包含的节点之间的对应关系的配置文件；

恢复模块，用于根据所述配置文件查找故障节点所属的逻辑组，当满足组内恢复条件时，控制从所述逻辑组内随机选取的一个节点拷贝该逻辑组内各节点上的第二数据块和第二校验块对故障节点进行组内数据恢复。

8.如权利要求7所述的装置，其特征在于，当不满足组内恢复条件时，所述恢复模块控制随机选取的一个节点拷贝所有逻辑组内的各节点上的第二数据块和第一校验块对故障节点进行全局数据恢复。

9.如权利要求7或8所述的装置，其特征在于，所述组内恢复条件具体为：当故障节点的数量不大于对应逻辑组内的第二校验块的数量时，可进行组内数据恢复。

10.一种后台服务器，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～6任一项所述方法的步骤。