CN113821164B

CN113821164B - 一种分布式存储系统的对象聚合方法和装置

Info

Publication number: CN113821164B
Application number: CN202110962042.3A
Authority: CN
Inventors: 许银龙; 陶桐桐; 穆向东
Original assignee: Inspur Jinan data Technology Co ltd
Current assignee: Inspur Jinan data Technology Co ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2024-02-13
Anticipated expiration: 2041-08-20
Also published as: CN113821164A

Abstract

本发明公开了一种分布式存储系统的对象聚合方法和装置，方法包括：在分布式存储系统的业务进程运转的状态下，为分布式存储系统中分配缓存聚合存储池；启动并通过遍历进程来遍历分布式存储系统中的原始数据以确定原始数据是否具有聚合特征，其中遍历进程独立于业务进程并且相对于业务进程具有更低的资源调用优先级；响应于确定遍历进程遍历到的原始数据具有聚合特征而将原始数据写入缓存聚合存储池；启动并通过聚合进程来将缓存聚合存储池中的原始数据聚合为聚合数据并写入分布式存储系统。本发明能够在不影响正常业务的前提下将分布式存储系统的小对象聚合成大对象方式进行存储，在分布式存储系统发生故障时能快速恢复数据，提升稳定性和可靠性。

Description

一种分布式存储系统的对象聚合方法和装置

技术领域

本发明涉及分布式存储领域，更具体地，特别是指一种分布式存储系统的对象聚合方法和装置。

背景技术

随着海量非结构化数据的爆炸性增长，分布式对象存储已经成为用户构建数据中心架构的存储基石，越来越多的关键业务接入分布式对象存储中。尤其是海量票据影像文件在存储集群中会有百亿的底层存储对象，这些对象大多数不足100K，当磁盘故障需要恢复数据时，对于海量小对象数据重构耗时就会花费很长时间，部分场景下一个磁盘故障数据重构恢复需要数星期的时间才能恢复，从而对分布式存储集群的可靠性带来了很大风险。

针对现有技术中小数据对象影响数据重构效率的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种分布式存储系统的对象聚合方法和装置，能够在不影响正常业务的前提下将分布式存储系统的小对象聚合成大对象方式进行存储，以便于在分布式存储系统发生故障时能快速恢复数据，提升稳定性和可靠性。

基于上述目的，本发明实施例的第一方面提供了一种分布式存储系统的对象聚合方法，包括执行以下步骤：

在分布式存储系统的业务进程运转的状态下，为分布式存储系统中分配缓存聚合存储池；

启动并通过遍历进程来遍历分布式存储系统中的原始数据以确定原始数据是否具有聚合特征，其中遍历进程独立于业务进程并且相对于业务进程具有更低的资源调用优先级；

响应于确定遍历进程遍历到的原始数据具有聚合特征而将原始数据写入缓存聚合存储池；

启动并通过聚合进程来将缓存聚合存储池中的原始数据聚合为聚合数据并写入分布式存储系统。

在一些实施方式中，方法还包括执行以下步骤：

响应于业务进程在运转中请求读取未经遍历进程遍历的请求数据而使业务进程读取请求数据，同时使遍历进程确定请求数据是否具有聚合特征；

响应于确定业务进程读取的请求数据具有聚合特征而将请求数据作为原始数据写入缓存聚合存储池，并将请求数据标记为已经被遍历进程遍历过。

在一些实施方式中，方法还包括执行以下步骤：

响应于业务进程在运转中请求写入请求数据而使业务进程写入请求数据，同时使遍历进程确定请求数据是否具有聚合特征；

响应于确定业务进程写入的请求数据具有聚合特征而将请求数据作为原始数据直接写入缓存聚合存储池。

在一些实施方式中，确定原始数据是否具有聚合特征包括：确定原始数据的术语尺寸是否小于预定的聚合尺寸阈值。

在一些实施方式中，方法还包括执行以下步骤：

响应于确定聚合数据成功写入分布式存储系统而从缓存聚合存储池中删除原始数据和聚合数据。

本发明实施例的第二方面提供了一种分布式存储系统的对象聚合装置，包括：

处理器；

控制器，存储有处理器可运行的程序代码，处理器在运行程序代码时执行以下步骤：

在一些实施方式中，装置还包括执行以下步骤：

本发明具有以下有益技术效果：本发明实施例提供的分布式存储系统的对象聚合方法和装置，通过在分布式存储系统的业务进程运转的状态下，为分布式存储系统中分配缓存聚合存储池；启动并通过遍历进程来遍历分布式存储系统中的原始数据以确定原始数据是否具有聚合特征，其中遍历进程独立于业务进程并且相对于业务进程具有更低的资源调用优先级；响应于确定遍历进程遍历到的原始数据具有聚合特征而将原始数据写入缓存聚合存储池；启动并通过聚合进程来将缓存聚合存储池中的原始数据聚合为聚合数据并写入分布式存储系统的技术方案，能够在不影响正常业务的前提下将分布式存储系统的小对象聚合成大对象方式进行存储，以便于在分布式存储系统发生故障时能快速恢复数据，提升稳定性和可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的分布式存储系统的对象聚合方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种在不影响正常业务的前提下将分布式存储系统的小对象聚合成大对象方式进行存储，以便于在分布式存储系统发生故障时能快速恢复数据，提升稳定性和可靠性的分布式存储系统的对象聚合方法的一个实施例。图1示出的是本发明提供的分布式存储系统的对象聚合方法的流程示意图。

所述的分布式存储系统的对象聚合方法，如图1所示，包括执行以下步骤：

步骤S101，在分布式存储系统的业务进程运转的状态下，为分布式存储系统中分配缓存聚合存储池；

步骤S103，启动并通过遍历进程来遍历分布式存储系统中的原始数据以确定原始数据是否具有聚合特征，其中遍历进程独立于业务进程并且相对于业务进程具有更低的资源调用优先级；

步骤S105，响应于确定遍历进程遍历到的原始数据具有聚合特征而将原始数据写入缓存聚合存储池；

步骤S107，启动并通过聚合进程来将缓存聚合存储池中的原始数据聚合为聚合数据并写入分布式存储系统。

本发明针对现网中已经在存储集群中存储的海量小对象，在存储集群中划分出高速缓存聚合存储池，一方面通过定时缓慢的遍历桶的数据的后台任务方式，将集群中小对象缓存到高速聚合存储池，然后将小对象聚合成大对象后重新写入到集群；另一方面当有业务读写时，如果是小对象也存储在高速缓存聚合存储池，等待聚合成大对象后再写入集群。从而达到在不影响用户业务的前提下，逐步将整个集群的小对象聚合成大对象方式进行存储，当集群发生故障时能快速的恢复数据、提升整个集群的可靠性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中，所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中，处理器和存储介质可以作为分立组件驻留在用户终端中。

在一些实施方式中，方法还包括执行以下步骤：

结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

下面根据具体实施例来进一步阐述本发明的具体实施方式。

首先在存储集群中划分出高速缓存聚合存储池，针对集群中已经存在的海量小对象，通过缓慢的遍历桶中对象的方式，将对象读取到高速缓存聚合存储池(如SSD存储池)，将小对象在高速聚合存储池聚合成大对象后重新写入到普通的数据存储池(如HDD存储池)。其次，针对用户前端用户的读取业务，如果读取到普通存储池的小对象，完成用户数据读取业务后将该对象也缓存到高速聚合的存储池，等待聚合成大对象后重新写入普通的数据存储池；再次，针对用户前端的写入业务，将小对象的写入存储在高速聚合的缓存池，等待小对象聚合成大对象后，再将聚合大对象写入到普通的数据池中。从而达到在不影响用户业务的前提下，逐步将整个集群的小对象聚合成大对象方式进行存储。

在分布式对象存储系统中聚合小对象的方法的具体步骤如下：

A.首先在存储集群中划分出高速缓存聚合存储池，可以通过新增高速数据盘(如SSD)方式，也可以通过新增机柜的方式。

B.使用单独的进程或脚本等方式缓慢的遍历用户桶中的数据，如果是小对象如对象的大小小于512KB，就将该对象读取到A中的高速缓存聚合存储池。

C.用户前端新的读取业务，在完成用户读写后，如果是小对象并且在普通的数据存储池中，就将该对象也缓存到高度缓存聚合存储池。

D.用户前端新的写入业务，如果是小对象，就将该小对象写入到高速缓存池，如果是大对象直接写入普通的数据池。

E.使用单独的控制程序将高速缓存聚合存储池的多个小对象聚合成大对象后，写入普通存储池，待写入成功后，删除原先小对象的数据部分。

当数据中心的用户在读写时，数据中心对读写的数据进行统计，如果一定时间内，集群的读写数据超过一定的门限，则认为该数据中心处于繁忙状态，如果低于一定的门限则认为该数据中心处于空闲状态；其次，其他数据中心进行数据同步时同时获取该数据中心的状态，如果判定对端数据中心处于繁忙状态，则减少遍历进程在单位时间内发送同步数据请求数，如果对端数据中心处于空闲状态，则加大遍历进程在单位时间内发送的同步请求数，这样达到既能在数据中心业务繁忙时不影响正常业务读写，也能在空闲时加快同步减少灾难发生时丢失的数据量，从而提升数据中心间数据同步的效率又不会对用户的业务造成冲击。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

从上述实施例可以看出，本发明实施例提供的分布式存储系统的对象聚合方法，通过在分布式存储系统的业务进程运转的状态下，为分布式存储系统中分配缓存聚合存储池；启动并通过遍历进程来遍历分布式存储系统中的原始数据以确定原始数据是否具有聚合特征，其中遍历进程独立于业务进程并且相对于业务进程具有更低的资源调用优先级；响应于确定遍历进程遍历到的原始数据具有聚合特征而将原始数据写入缓存聚合存储池；启动并通过聚合进程来将缓存聚合存储池中的原始数据聚合为聚合数据并写入分布式存储系统的技术方案，能够在不影响正常业务的前提下将分布式存储系统的小对象聚合成大对象方式进行存储，以便于在分布式存储系统发生故障时能快速恢复数据，提升稳定性和可靠性。

需要特别指出的是，上述分布式存储系统的对象聚合方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于分布式存储系统的对象聚合方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种在不影响正常业务的前提下将分布式存储系统的小对象聚合成大对象方式进行存储，以便于在分布式存储系统发生故障时能快速恢复数据，提升稳定性和可靠性的分布式存储系统的对象聚合装置的一个实施例。装置包括：

处理器；

在一些实施方式中，装置还包括执行以下步骤：

本发明例公开所述的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如装置等，因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

从上述实施例可以看出，本发明实施例提供的分布式存储系统的对象聚合装置，通过在分布式存储系统的业务进程运转的状态下，为分布式存储系统中分配缓存聚合存储池；启动并通过遍历进程来遍历分布式存储系统中的原始数据以确定原始数据是否具有聚合特征，其中遍历进程独立于业务进程并且相对于业务进程具有更低的资源调用优先级；响应于确定遍历进程遍历到的原始数据具有聚合特征而将原始数据写入缓存聚合存储池；启动并通过聚合进程来将缓存聚合存储池中的原始数据聚合为聚合数据并写入分布式存储系统的技术方案，能够在不影响正常业务的前提下将分布式存储系统的小对象聚合成大对象方式进行存储，以便于在分布式存储系统发生故障时能快速恢复数据，提升稳定性和可靠性。

需要特别指出的是，上述装置的实施例采用了所述分布式存储系统的对象聚合方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述分布式存储系统的对象聚合方法的其他实施例中。当然，由于所述分布式存储系统的对象聚合方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

本发明实施例还可以包括相应的计算机设备。计算机设备包括存储器、至少一个处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时执行上述任意一种方法。

其中，存储器作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述分布式存储系统的对象聚合方法对应的程序指令/模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行装置的各种功能应用以及数据处理，即实现上述方法实施例的分布式存储系统的对象聚合方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种分布式存储系统的对象聚合方法，其特征在于，包括执行以下步骤：

启动并通过遍历进程来遍历分布式存储系统中的原始数据以确定所述原始数据是否具有聚合特征，其中所述遍历进程独立于所述业务进程并且相对于所述业务进程具有更低的资源调用优先级；

响应于确定所述遍历进程遍历到的所述原始数据具有所述聚合特征而将所述原始数据写入所述缓存聚合存储池；

启动并通过聚合进程来将所述缓存聚合存储池中的所述原始数据聚合为聚合数据并写入分布式存储系统；

响应于所述业务进程在运转中请求读取未经所述遍历进程遍历的请求数据而使所述业务进程读取所述请求数据，同时使所述遍历进程确定所述请求数据是否具有聚合特征；

响应于确定所述业务进程读取的所述请求数据具有所述聚合特征而将所述请求数据作为所述原始数据写入所述缓存聚合存储池，并将所述请求数据标记为已经被所述遍历进程遍历过。

2.根据权利要求1所述的方法，其特征在于，还包括执行以下步骤：

响应于所述业务进程在运转中请求写入请求数据而使所述业务进程写入所述请求数据，同时使所述遍历进程确定所述请求数据是否具有聚合特征；

响应于确定所述业务进程写入的所述请求数据具有所述聚合特征而将所述请求数据作为所述原始数据直接写入所述缓存聚合存储池。

3.根据权利要求1所述的方法，其特征在于，确定所述原始数据是否具有聚合特征包括：确定所述原始数据的术语尺寸是否小于预定的聚合尺寸阈值。

4.根据权利要求1所述的方法，其特征在于，还包括执行以下步骤：

响应于确定所述聚合数据成功写入分布式存储系统而从所述缓存聚合存储池中删除所述原始数据和所述聚合数据。

5.一种分布式存储系统的对象聚合装置，其特征在于，包括：

处理器；

控制器，存储有所述处理器可运行的程序代码，所述处理器在运行所述程序代码时执行以下步骤：

6.根据权利要求5所述的装置，其特征在于，还包括执行以下步骤：

7.根据权利要求5所述的装置，其特征在于，确定所述原始数据是否具有聚合特征包括：确定所述原始数据的术语尺寸是否小于预定的聚合尺寸阈值。

8.根据权利要求5所述的装置，其特征在于，还包括执行以下步骤：